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托 马 索 . 泰 奥 菲 利 (Tommaso Teofili ) 


RedHat 公 司 高 级 软件 工程 师 ， 曾 担任 
Adobe 公司 软件 工程 师 ， 对 开源 和 人 工 
智能 充满 热情 。 他 是 Apache 软件 基金 会 
的 成 员 ， 参 与 了 许多 项 目 ， 涉 及 信息 检 
索 、 自 然 语言 处 理 和 分 布 式 计算 等 主题 。 








李 军 


电子 科技 大 学 计算 机 应 用 技术 硕士 ， 
《IDA Pro 代 码 破 解 揭 密 》 合 作 译 者 ， 现 
从 事 电力 系统 自动 化 工作 。 


天 舒 

曾 融 读 于 四 川 大 学 电气 工程 及 目 动 化 专 
业 ， 英 国 曼 彻 斯 特大 学 电力 系统 工程 硕 
士 ， 现 从 事 电力 系统 自动 化 工作 。 
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内 容 提 要 

本 书 是 市 面 上 少见 的 将 搜索 与 深度 学 习 相 结合 的 书 ， 讨 论 了 使 用 (深度 ) 神经 网 络 来 帮助 建立 有 效 的 
搜索 引擎 的 方法 。 阅 读本 书 无 须 具备 开发 搜索 引擎 的 背景 ， 也 不 需要 具备 有 关机 带 学 习 或 深 度 学 习 的 预备 
知识 ， 因 为 本 书 将 介绍 所 有 相关 的 基础 知识 和 实用 技巧 。 书 中 研究 了 搜索 引擎 的 几 个 组 成 部 分 ， 不 仅 针对 
它们 的 工作 方式 提供 了 一 些 见 解 ， 还 为 在 不 同 环境 中 使 用 神经 网 络 提供 了 指导 。 读 完 本 书 ， 你 将 深入 理解 
搜索 引擎 面临 的 主要 挑战 、 这 些 挑战 的 稼 见解 决 方法 以 及 深度 学 习 所 能 提供 的 帮助 。 你 将 清晰 地 理解 几 种 
深度 学 习 技 术 以 及 它们 在 搜索 环境 中 的 适用 范围 ， 并 深入 了 解 Lucene 和 Deeplearning4j 库 。 书 中 示例 代码 
用 Java 编写 。 

本 书 适 合 有 一 定编 程 经 验 ， 对 次 度 学 习 和 开发 搜索 引擎 感 兴趣 的 该 者 阅读 。 
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虽然 现在 市 面 上 关于 深度 学 习 的 图 书 不 少 , 但 是 将 深度 学 习 应 用 于 搜索 领域 ， 且 既 重 视 实 践 
又 兼顾 理论 诠释 的 书 不 多 ， 而 本 书 就 是 这 样 一 本 书 。 本 书 由 一 位 真正 的 开源 先驱 所 作 。 作 者 并 没 
有 大 量 使 用 上 涩 的 数学 公式 ， 而 是 尽 可 能 多 地 使 用 图 表 进 行 形象 的 表达 , 并 针对 每 一 个 主题 给 出 
了 示例 代码 。 本 书 第 一 部 分 从 搜索 、 机 器 学 习 和 深度 学 习 的 基本 概念 出 发 ， 介绍 了 如 何 将 深度 学 
习 技 术 应 用 于 搜索 问题 。 第 二 部 分 讨论 了 常见 的 搜索 任务 ,以 及 如 何 应 用 深度 神经 网 络 等 技术 解 
决 这 些 搜索 任务 。 第 三 部 分 讨论 了 基于 深度 学 习 的 机 需 翻 译 和 图 像 搜 索 。 全 书 内 容 层 层 推进 ， 逐 
步 深入 。 

本 书 翻译 历时 近 一 年 , 第 1~5 曹 由 天 舒 翻译 ， 第 6~9 章 及 文 前 部 分 由 李 军 翻译 ,并 巾 李 军 对 
全 书 进行 了 两 遍 以 上 的 校对 、 审 阅 ， 使 得 全 书 能 够 保持 行文 的 连贯 性 和 术语 的 一 致 性 。 

本 书 涉及 很 多 术语 。 与 信息 检索 相关 的 术语 ,在 翻译 时 主要 参考 了 《搜索 引擎 : 信息 检索 实 
践 》( ISBN: 9787111288084 ); 与 深度 学 习 相 关 的 术语 ， 则 主要 参考 了 《深度 学 习 》(ISBN: 
9787115461476 )。 因 为 深度 学 习 领 域 发 展 极为 迅速 ,所 以 我 们 也 参考 了 网 络 上 一 些 公开 课程 的 翻 
译 ， 遇 到 表达 不 准 的 术语 时 ,， 均 尽力 采用 业界 较为 浓 用 的 译 法 。 由 于 译 者 水 平 有 限 ， 以 及 书 中 涉 
及 技术 较为 深奥 ， 因 此 难免 偶 有 误 译 现象 ， 还 请 读者 见谅 。 读 者 如 发 现 错误 ,请 到 图 灵 社 区 网 站 
本 书页 面 提交 勘误 。 

在 翻译 过 程 中 ， 我 们 对 原 书 也 有 一 些 疑 惑 。 其 中 一 些 问题 通过 在 网 上 搜索 相关 知识 、 查 看 
Deeplearning4j 文档 找到 了 答案 ,但 仍 有 十 余 处 存疑 。 为 此 ， 我们 通过 电子 邮件 向 作者 托 马 索 :和 泰 
奥 非 利 进行 了 核实 ,根据 作者 的 回复 ,其 中 8 处 是 作者 笔 误 ， 我们 已 在 书 中 一 一 订正 。 在 此 感谢 
作者 在 百 忙 之 中 做 出 回复 ! 

非常 感谢 图 灵 公 司 的 副 总 经 理 傅 志 红 老 师 , 在 本 书 的 翻 幸 过 程 中 , 传 老师 一 下 与 我 们 保持 密 
切 联系 ， 对 翻译 中 的 标点 符号 、 术 语 、 行 文风 格 等 方面 给 了 我 们 许多 指导 和 帮助 ; 同时 也 非常 感 
谢 图 灵 公 司 的 祁 班 、 温 雪 编 辑 , 她 们 细致 认真 地 审核 了 本 书 , 经 常 晚 上 、 周 末 还 与 译 者 联系 校 稿 ， 
可 以 说 细致 人 微 ， 为 本 书 的 出 版 付出 了 巨大 努力 。 作 为 译 者 ,我 们 次 次 感受 到 了 图 灵 人 对 于 每 一 
本 书 精 司 细 琢 的 态度 ， 这 也 是 所 有 该 者 之 福 。 我 们 由 衷 希 望 阅 读本 书 使 大 家 能 有 所 收获 。 硕 望 大 
家 喜欢 本 书 ! 






















































































李 军 、 天 得 
2020 年 3 月 
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我 们 很 难 量 化 像 “ 神 经 网 络 ” 和 “次 度 学 习 ” 这 样 的 名 词 现在 变 得 有 多 普通 ， 或 者 更 百 接地 
说 ,我 们 很 难 量 化 这 些 技 术 如 何 影 啊 我 们 的 生活 。 从 目 劲 化 日 党 工作 到 复制 困难 的 决策 ， 再 到 玫 
助 汽 车 ( 载 着 人 ) 目 动 行 台 到 目的 地 ,作为 彻底 改变 计算 的 技术 ,神经 网 络 和 深度 学 习 的 力量 才 
刚刚 开始 萌芽 。 

这 就 是 这 本 书 如 此 重要 的 原因 。 神 经 网 络 、 人 工 智能 和 深度 学 习 不 仅 使 日 常 工作 和 决策 自动 
化 , 使 它们 变 得 更 容易 ， 同 时 也 使 搜索 变 得 更 容易 。 以 前 ,信息 检索 和 搜索 技术 涉及 复杂 的 线性 
代数 ， 包 括 表 示 用 户 查 询 与 文档 匹配 的 矩阵 乘法 。 如 今 ， 先 进 的 技术 不 再 使 用 代数 和 线性 模型 ， 
而 是 在 神经 网 络 学 习 了 如 何 使 用 单独 的 网 络 对 文档 中 的 单词 进行 归纳 总 结 后 , 再 应 用 它们 来 识别 
文档 之 间 的 单词 相似 性 。 而 这 只 是 搜索 过 程 中 使 用 人 工 智 能 和 深度 学 习 的 一 个 领域 。 

本 书 作 者 托 马 索 ' 和 泰 奥 非 利 在 书 中 采用 了 一 种 实用 的 方法 ， 展 示 了 在 搜索 引 敬 开发 中 使 用 
神经 网 络 、 人 工 千 能 和 深度 学 习 的 最 新 技术 。 书 中 有 许多 例子 ,能 引导 谈 者 了 解 当今 搜 索引 擎 的 
架构 ， 同 时 提供 了 足够 的 背景 知识 ， 以 帮助 读者 理解 深度 学 习 的 适用 情景 和 使 用 方法 ， 以 及 如 何 
利用 深度 学 习 来 提升 搜索 效果 。 从 建立 你 的 第 一 个 网 络 并 在 查询 扩展 中 找到 相似 的 单词 , 到 学 习 
词 肯 和 来 帮助 搜索 排序 , 再 到 跨 语 言 搜索 和 图 像 搜索 , 托 马 索 展示 了 人 工 知 能 和 深度 学 习 在 哪些 
情况 下 可 以 增强 你 的 代码 和 搜索 能 

本 书 作 者 是 一 位 真正 的 开源 先驱 。 他 是 Apache Lucene 项 目的 前 任 主席 ， 而 该 项 目 实际 上 是 
为 Elasticsearch 和 Apache Solr 提供 支持 的 搜索 索引 5 引擎, 他 还 为 Apache OpenNLP 项目 中 的 语言 
理解 和 翻译 做 出 了 巨大 贡献 。 近 来 他 获得 提 和 名， 担任 Apache Joshua ( 孵化 ) 统计 机 硕 翻 详 项 目 
的 主席 。 

我 知 违 你 会 从 这 本 书 中 学 到 很 多 东西 ,我 推荐 这 本 书 ， 因 为 它 在 常识 、 对 复 林 理论 的 解释 以 
及 用 前 沿 的 深度 学 习 和 搜索 技术 来 编写 真正 的 代码 这 三 者 之 间 实 现 了 平衡 。 

希 望 你 能 至 受 阅 读本 书 的 乐趣 。 我 自己 真 的 非常 圣 受 ! 
















































































Chris Mattmann 
美 家 航空 航天 局 喷气 推进 实验 室 副 首席 技术 与 创新 官 
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大 约 10 年 前 ， 我 在 攻读 人 硕士 学 位 时 第 一 次 接触 到 自然 语言 处 理 这 个 领域 ， 并 立刻 被 它 深 深 
地 吸引 住 了 。 计算 机 能 够 帮助 我 们 理解 大 量 已 有 的 文本 文档 ， 这样 的 前 景 听 起 来 不 可 思议 。 我 仍 
然 记 得 ， 当 看 到 我 的 第 一 个 NLP 程序 从 几 个 文本 文档 中 提取 出 大 致 正确 上 且 有 用 的 信息 时 ， 我 有 
多 人 么 兴奋 。 

大 约 在 同一 时 间 , 在 工作 中 , 我 需要 为 一 个 客户 提供 咨询 服务 ,他 们 正在 开发 新 的 开源 搜索 
架构 。 我 的 一 位 同事 是 该 领域 的 专家 , 但 他 当时 正 忙 于 男 一 个 项 目 , 于 是 他 给 了 我 一 本 Lucene in 
Action。 我 妍 究 了 这 本 书 儿 周 之 后 ,就 被 派 去 做 咨询 工作 了 。 在 我 为 那个 基于 Lucene 和 Solr 的 项 
目 工作 几 年 后 ， 这 个 新 的 搜索 引擎 上 线 了 ( 据 我 所 知 ， 它 目前 仍 在 使 用 中 )。 搜 索引 擎 算法 经 入 
因为 某 个 查询 或 者 某 个 索引 文本 片段 而 需要 反复 调整 , 但 我 们 让 它 工 作 了 。 我 可 以 看 到 用 户 的 查 
询 , 也 可 以 看 到 检索 的 数据 , 但是, 仪 仪 由 于 拼写 上 的 细微 差别 或 遗漏 某 个 单词 ,就 可 能 导致 密 
切 相 关 的 信息 无 法 出 现在 搜索 结果 中 。 为 了 提供 尽 可 能 好 的 用 户 体验 , 产品 经 理 常 第 要 求 我 进行 
许多 人 工 干 预 。 因 此 ， 虽 然 我 对 自己 的 工作 感到 非常 目 紧 ,但 我 也 一 直 在 思考 如 何 尽 量 减少 人 工 
干预 。 

在 此 之 后 ， 我 很 偶然 地 发 现 目 己 涉足 了 机 带 学 习 领 域 ， 这 要 感谢 吴 恩 达 〈Andrew Ng ) 的 第 
一 门 机 需 学 习 在 线 讲 程 ( 它 是 Coursera MOOC 系列 课程 的 起 源 )。 我 对 课堂 上 展示 的 神经 网 络 背 
后 的 概念 如 此 着 迷 ， 以 至 于 决定 尝试 用 Java 实现 一 个 小 型 的 神经 网 络 库 ， 只 是 为 了 好 玩 儿 。 为 
此 我 开始 寻找 其 他 在 线 课程 ， 比 如 Andrej Karpathy 关于 视 党 识别 的 卷 积 神经 网 络 的 课程 ， 以 及 
Richard Socher 关于 目 然 语言 处 理 的 阁 度 神经 网 络 的 课程 。 从 那 以 后 ， 我 一 直 专 注 于 搜索 引擎 、 
目 然 语言 处 理 和 深度 学 习 ， 且 主要 是 在 开源 领域 。 

几 年 前 ，Manning 出 版 社 找到 我 ， 硕 望 我 为 一 本 关于 目 然 语言 处 理 的 书写 评论 。 我 撰写 了 评 
论 , 并 在 该 评论 的 最 后 提 到 目 己 有 兴趣 写 一 本 关于 搜索 引擎 和 神经 网 络 的 书 。 当 Manning 出 版 社 
再 次 找到 我 ， 表 示 对 此 有 兴趣 时 ， 我 有 点 惊讶 ， 并 且 目 问 :“ 我 真 的 想 承 此 写本 书 吗 ? ”我 意识 
到 ， 是 的 ， 我 很 感 兴趣 。 

尽管 深度 学 习 已 经 给 计算 机 视觉 和 目 然 语言 处 理 带 来 了 单 命 性 的 变化 , 但 它 在 搜索 领域 的 应 
用 空间 仍然 有 竺 探索 。 我 相信 目前 我 们 还 不 能 依赖 次 度 学 习 来 目 动 设置 和 调 优 搜索 引擎 , 但 是 它 
可 以 让 搜索 引 敬 用户 的 体验 更 加 流畅 。 有 了 深度 学 习 , 我 们 就 可 以 在 搜索 引擎 中 做 一 些 其 他 现 有 
技术 做 不 到 的 事情 ,或 者 强化 搜索 引擎 中 现 有 技术 的 功能 。 通 过 次 度 神 经 网 络 提 高 搜索 引擎 效率 
的 旅程 刚刚 开始 ， 祝 你 旅途 愉快 。 
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天 于 本 叫 


本 书 以 实践 为 守则 ， 主 要 讨论 了 使 用 ( 深度 ) 神经 网 络 来 帮助 建立 有 效 的 搜索 引擎 的 方法 。 
书 中 人 研究 了 搜索 引擎 的 几 个 组 成 部 分 , 不 仅 针 对 它们 的 工作 方式 提供 了 一 些 见 解 , 还 为 在 不 同 环 
境 中 使 用 神经 网 络 提供 了 指导 。 重点 在 于 通过 示例 解释 搜索 和 深度 学 习 技 术 , 上 且 其 中 大 部 分 示例 
配 有 代码 。 同 时 ， 本 书 还 在 适当 的 地 方 提供 了 相关 的 研究 论文 ， 以 或 励 你 进行 扩展 阅读 ,深化 对 
性 定 主题 的 认识 。 对 神经 网 络 和 搜索 相关 主题 的 阐释 贯 侍 全书。 

读 完 本 书 , 你 将 深入 理解 搜索 引 苟 面临 的 主要 挑战 、 这 些 挑 战 的 常见 解决 方法 以 及 深度 学 习 
所 能 提供 的 帮助 。 你 将 清晰 地 理解 几 种 次 度 学 习 技 术 以 及 它们 在 搜索 环境 中 的 适用 范围 , 并 诬 入 
了 解 Lucene 和 Deeplearning4j 库 。 此 外 , 你 还 将 培养 出 一 种 实践 的 态度 , 测试 神经 网 络 的 有 效 性 
( 而 不 是 将 其 视 为 神奇 的 “魔法 ”)， 并 且 度 量 它们 的 成 本 和 收益 。 


目标 读者 


本 书 是 为 具有 中 级 编程 背景 的 读者 准备 的 。 如 采 你 精通 Java 编程 ， 并 且 对 开发 搜索 引擎 有 
兴趣 或 愿意 参与 其 中 , 那 就 再 好 不 过 了 。 如 果 你 想 让 搜索 引擎 更 有 效 地 给 出 相关 结果 ， 从 而 对 最 
终 用 户 更 有 用 ， 那 么 你 应 该 谈 读 本 书 。 

即使 你 没有 开发 搜索 引擎 的 背景 也 没关系 ， 因 为 本 书 在 涉及 搜索 的 每 个 具体 方面 时 ， 都 会 
介绍 搜索 引擎 的 基本 概念 。 同 样 ， 你 也 无 须 提 前 笃 握 机 带 学 习 或 诛 度 学 习 的 知识 。 本 书 将 介绍 
所 有 必 震 的 机 融 尝 习 和 深度 学 习 基 础 知识 , 以 及 在 生产 场景 中 将 次 度 学 习 应 用 于 搜索 引 黎 的 实用 
技巧 。 

你 应 该 准备 好 动手 写 代码 ， 并 扩展 现 有 的 开源 库 ， 以 实现 深度 学 习 算法 ,解决 搜索 问题 。 


阅读 路 线 图 


本 书 分 成 三 个 部 分 。 

口 第 一 部 分 介绍 了 搜索 、 机 带 学 习 和 这 度 学 习 的 基本 概念 。 第 1 章 介 绍 了 将 这 度 学 习 技 术 
应 用 于 搜索 问题 的 基本 原理 ,涉及 与 最 常见 的 信息 检索 方法 相关 的 内 容 。 第 2 章 给 出 了 
第 一 个 例 了 于， 用 于 说 明 如 何 使 用 神经 网 络 模型 从 数据 中 生成 同义词 ， 以 提高 搜索 引擎 有 
效 性 。 
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口 第 二 部 分 讨论 了 常见 搜索 引擎 任务 ， 这 些 任 务 可 以 通过 深度 神经 网 络 更 好 地 处 理 。 第 3 章 
介绍 了 如 何 使 用 循环 神经 网 络 (recurrent neural network ) 来 生成 用 户 输 入 查询 的 替代 查询 。 
第 4 章 介 绍 了 如 何 借助 深度 神经 网 络 的 帮助 ， 在 用 户 输入 查询 时 提供 更 好 的 建议 。 第 5 章 
重点 介绍 了 排序 模型 ， 特 别 是 如 何 使 用 词 艇 入 提供 相关 性 更 强 的 搜索 结果 。 第 6 章 讨论 了 
文档 舱 入 在 排序 函数 和 内 容 推 荐 中 的 使 用 。 
口 第 三 部 分 介绍 了 更 复杂 的 场景 ， 如 由 深度 学 习 驱 动 的 机 玫 翻 译 和 图 像 搜 索 。 第 7 章 指 导 
你 通过 基于 神经 网 络 的 方法 为 搜索 引擎 提供 多 语言 搜索 能 力 。 第 8 章 讨 论 了 如 何 使 用 深 
度 学 习 模 型 ， 基 于 内 容 搜索 图 像 集合 。 第 9 章 讨 论 了 与 生产 相关 的 主题 ， 如 深度 学 习 模 
型 调 优 和 处 理 连续 传人 的 数据 流 。 
本 书 涉及 的 主题 与 概念 的 复杂 性 是 递增 的 。 如 果 你 对 深度 学 习 或 搜索 不 熟悉 , 或 者 对 两 者 都 
不 束 悉 ,强烈 建议 你 先 阅 读 第 1 草 和 第 2 曹 。 在 其 他 情况 下 ， 你 可 以 根据 自己 的 需要 和 兴趣 随意 
选择 章节 阅读 。 


代码 约定 


本 书 侦 回 于 提供 代码 片段 而 不 是 完整 的 代码 清单 , 因为 这 样 能 快速 、 轻 松 地 了 解 代 码 在 做 什 
么 以 及 是 如 何 做 的 。 完 整 的 源 代 码 可 以 扫描 本 书 封 底 二 维 码 下 载 "， 也 可 以 在 本 书 的 图 灵 社 区 页 
面 (https:/wwwi.ituring.com.cn/book/2733 ) 下 我 。 

代码 示例 使 用 Java 编程 语言 和 两 个 开源 ( Apache 授权 的 ) 库 ， 即 Apache Lucene 和 
Deeplearning4j。Lucene 是 构建 搜索 引 敬 时 使 用 最 广泛 的 库 之 一 ; 在 撰写 本 书 时 ，Deeplearning4j 
是 用 于 深度 学 习 的 原生 Java 库 的 最 佳 选择 。 同 时 使 用 两 者 将 使 你 轻松 、 快 速 、 顺 利 地 测试 和 试 
验 搜 索 和 次 度 学 习 。 

在 本 书 中 ,为 了 与 普通 文本 相 区 别 ， 源 代码 采用 了 等 宽 字 体 。 在 很 多 情况 下 ， 源 代码 的 格式 
经 过 了 调整 ,我们 深 加 了 换行 符 ， 修 改 了 缩 进 ， 以 适应 本 书页 面 的 可 用 空间 。 但 是 ， 在 极 少 数 情 
况 下 ， 即 使 这 样 也 不 能 适应 版 面 ， 因 此 代码 清单 中 使 用 了 续 行 符 ( ee )。 此 外 ， 当 用 文本 描述 代 
但 时 , 源 代码 中 的 注释 通常 会 从 代码 清单 中 删除 ,许多 代码 清单 有 代码 注释 , 以 突出 重要 的 概念 。 










































































liveBook 论坛 





在 购买 本 书 英 文 版 后 ， 你 可 以 免费 访问 由 Manning Publication 运营 的 一 个 私有 网 络 论 坛 ， 在 
那里 你 可 以 对 本 书 发 表 评 论 ， 提 出 技术 问题 ， 并 从 作者 和 其 他 用 户 那 里 获得 帮助 。 要 访问 论坛 ， 
请 访问 https://livebook.manning.com/#!/book/deep-learning-for-search/discussion 。 可 以 通 过 
https://livebook.manning.com/#!/discussion 了 解 Manning 的 论坛 和 行为 规则 。 

Manning 虽然 为 读者 提供 了 一 个 平台 , 以 方便 读者 之 间 、 读 者 与 作者 之 间 进 行 有 意义 的 对 话 ， 
但 是 不 能 保证 作者 会 频繁 参与 互动 ， 因 为 作者 对 论坛 的 贡献 是 自愿 的 (也 是 无 偿 的 )。 我 们 建议 























中 扫描 二 维 码 前 ， 请 先 关注 图 灵 社 区 微 信 公 众 写 ， 以 便 及 时 获取 推送 。 一 一 编者 注 
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读者 癌 作 者 提出 一 些 有 挑战 性 的 问题 ， 以 引起 他 的 兴趣 。 只 要 本 书 仍然 印刷 出 版 , 论坛 和 以 前 讨 
论 的 档案 就 可 以 从 出 版 商 的 网 站 上 找到 。 


电子 书 


本 书 中 文 版 除了 纸 质 版 本 , 还 有 电子 书 可 供 选 购 。 扫 摘 如 下 二 维 码 ， 即 可 购 关 本 书 中 文 版 电 
子 版 。“ 随 书 下 载 ” 处 可 下 载 本 书 部 分 彩 图 。 











关于 封面 图 


本 书 封面 上 的 插画 题 为 Habit ofa Lady of China。 这 幅 插 画 来 日 Thomas Jefferys 于 1757 年 至 
1772 年 间 在 伦敦 出 版 的 4 Collection of the Dresses of Different Nations, Ancient and Modern( 共 4 
卷 )。 该 书 犀 页 指出 ， 这 些 插 画 都 是 手工 上 色 、 铀 版 雕刻 的 ， 其 颜料 中 还 深 加 了 阿拉 人 树胶 。 

Thomas Jefferys ( 1719 一 1771 ) 被 称 为 “乔治 三 世 国 王 的 地 理学 家 ”。 他 是 一 位 英国 地 图 制 轩 
师 , 是 当时 主要 的 地 图 供应 商 。 他 不 仅 为 政府 和 其 他 官方 机 构 雕 刻 并 印刷 地 图 ,还 制作 了 各 种 商 
用 地 图 和 地 图 集 ， 特 别 是 北美 洲 地 图 。 地 图 制图 师 的 工作 让 他 对 调研 各 地 民族 服饰 产生 了 兴 
这 一 兴趣 在 这 套 服饰 集 里 体现 得 淋漓 尽 致 。 在 18 世纪 晚期 ， 着 迷 于 远方 的 大 陆 并 为 了 消 遗 去 旅 
行 还 是 相对 新 鲜 的 现象 ， 而 像 这 和 套 服饰 集 这 样 的 合集 在 当时 非 党 流行 ,因为 它们 可 以 回 观 光 客 和 
足 不 出 户 的 “游客 ”介绍 其 他 国家 与 地 区 的 居民 。 

Jefferys 作品 中 异彩 纷呈 的 图 画 生 动 地 描绘 了 200 多 年 前 世界 各 国 的 特色 。 目 那 以 后 ， 服 饰 
文化 发 生 了 变化 ,各 个 国家 与 地 区 之 间 一 度 非 常 丰 宇 的 多 样 性 已 逐渐 消失 。 现 在 , 不同 大 洲 的 抽 
民 往 往 很 难 通过 服饰 来 分 辨 。 也 许 , 我 们 该 乐观 一 点 儿 ， 我 们 牺牲 了 文化 和 视觉 上 的 多 样 性 换 来 
了 更 多 样 的 人 生 ， 或 者 说 是 更 多 样 、 更 有 趣 、 更 智能 的 科技 人 生 。 

在 很 难 通 过 封面 分 辨 不 同 计算 机 读物 的 这 个 时 代 ，Manning 出 版 社 在 图 书 封 面 上 采用 了 两 个 
志 纪 以 前 各 地 居民 丰富 多 样 的 形象 ,以 此 体现 了 计算 机 行业 别出心裁 、 独 具 创 新 的 特性 。 这 要 归 
功 于 Jefferys 的 绘画 。 



































第 一 部 分 “ 当 搜索 遇 上 深度 学 习 

















第 1 章 神经 搜索 27 
1.1 神经 网 络 及 深度 学 习 .pppppp 人 
1.2 ”什么 是 机 器 学 习 eneennnneene 4 
1.3 ”深度 学 习 能 为 搜索 做 什 公 gy 
1.4 ”学 习 深 度 学 习 的 路 线 图 ………………………… 9 
1.5 检索 有 用 的 信息 10 

1.5.1 文本、 词素 、 词 项 和 搜索 
基础 11 
1.5.2 ”相关 性 优先 RN 18 
1.$.3 ”经典 检 索 模 型 einen 19 
1.5.4 ”精确 府 与 召回 沸 吕 esseeionsseesont 20 
1.6 未 解决 的 问题 …………eeeeeeeeeeeeeeneeee. 20 
1.7 打开 搜索 引 警 的 墨盒 子 pp 21 
1.8 利用 深度 学 习 解 次 问题 27 
1.9 ”索引 与 神经 元 和 26 
1.10 神经 网 络 训 缘 26 
1.11 神经 搜索 的 前 景 28 
1.12 总结 29 

时 吧 音 :生成 同色 要 司 5 30 

站 全 演 语 衣 展 刘 蕴 31 
2.1.1 为 什么 要 使 用 同义词 …………………………… 32 
2.1.2 基于 词汇 表 的 同义词 匹配 …… 33 

2.2” 语 培 的 重要 性 ee 42 

2.3 前 馈 神 经 网 络 和 43 
2.3.1 前 馈 神 经 网 络 如 何 工 作 : 权重 

和 激活 水 数 44 
2 45 


孙 


2.4 


233 
2.0 
2 


使 用 EU 46 
2.4.1 在 Deeplearning4j 中 设置 
word2vec oe dd 全 全 6 S3 
2.4.2 基于 Word2vec 的 同义词 扩展 ……54 
评价 和 比较 a S57 
用 于 生产 系统 时 的 考虑 ……… 58 
1 ee ee ee ee 61 


第 二 部 分 “将 神经 网 络 用 于 搜索 ?| 掌 





第 3 章 ”从 纯 检 索 到 文本 生成 ………………… 64 

3.1 信息 需求 与 查询 : 弥补 差距 PP 65 

A 65 

3.1.2 ”数据 准备 enn 67 

3 的 州 2 字 

3.2 学习 序列 站 73 

3.3 ”循环 神经 网 络 和 75 
3.3.1 ”循环 神经 网 络 内 部 结构 和 

动 想 77 

3.3.2 长 期 依 藉 ee 80 

3. he I i 81 

3.4 用 于 无 监督 文本 生成 的 LSTM 网 络 ……81 

3.5 从 无 监督 文本 生成 到 监督 文本 生成 ……92 

3 淆 年 产 条 统 的 考 息 因素 95 

3.7 总线 96 

第 4 和 章 更 灵敏 的 查询 建议 .pp 97 

4.1 生成 查询 建议 和 98 

4.1.1 编写 查询 时 的 建议 pe 98 


4.1.2 基于 字典 的 建议 算法 pp 99 














目 录 
4.2 Lucene Lookup APIT ee 99 
4.3 ”分 析 后 的 建议 算法 Be oie 102 
4.4 使 用 语言 模型 ee 108 
4.5 基于 内 容 的 建议 算法 qe 111 
4.6 神经 语言 模型 全 和 全 全 全 和 开放 人 112 
4.7 ”基于 字符 的 神经 语言 建议 模型 ………… 114 
4.8 调 优 LSTM 语言 模型 a 117 
4.9 ”使 用 词 脱 入 使 建议 多 样 化 ………………… 125 
4.10 总 结 dt 127 
第 5 章 用 词 舱 入 对 搜索 结果 排序 ……… 128 
S51 排序 的 重要 性 i 128 
S 2 今 索 模 型 人 130 
5.2.1] TF-IDF 与 向 量 空 间 模 型 ………… 132 
5.2.2 ”在 Lucene 中 对 文档 进行 
排序 Cp 134 
S2 3 概 兴 模型 ee 137 
5.3 神经 言 息 检索 i 138 
5.4 从 单词 到 文档 向 量 139 
和 .4 评价 和 比较 SN 144 
56 i ee ee ne ee ede ee ede enn ed nn ed a 149 
第 6 章 ”用 于 排序 和 推荐 的 文档 柚 入 ……150 
6.1 ”从 词 舱 入 到 文档 舰 入 eon 150 
6.2 在 排序 中 使 用 段 向 量 pp 154 
6.3 文档 租 入 及 相关 内 容 全 全 全 157 
6.3.1 搜索 、 推 荐 和 相关 内 容 ………… 157 
6.3.2 使 用 高 频 词 项 查找 相似 内 容 ……159 
6.3.3 使 用 段 向 量 检索 相似 内 容 ……… 166 
6.3.4 从 编码 器 -解码 器 模型 用 向 量 
检索 相似 内 容 169 
6.4 人 De 170 
第 三 部 分 ”延伸 
第 7 章 跨 语 言 搜 索 PE 172 
7.1 为 讲 多 种 语言 的 用 户 提 供 服务 ………… 172 








7.1.1 翻译 文档 与 查询 ppp 
| 2 
7.1.3 在 Lucene 上 进行 多 语言 
EE 
7.2 ”统计 机 器 翻译 有 
7.2.1 对齐 
7.2.2 ”基于 短语 的 翻译 pp 
pe 
7.4 ”神经 机 器 翻译 ………… 于 ee 
7.4.1 编码 器 -解码 器 模型 ……… 
7.4.2 DL4J 中 用 于 机 器 翻译 的 
编码 器 -解码 器 
7.5 多 语言 的 单词 和 文档 极 入 ee de 
7.6 总 嫩 PO ed ee 
第 8 和 草 基于 内 容 的 图 像 搜 索 ………… 
8.1 图 像 内 容 和 搜索 
8.2 回顾， 基于 文本 的 图 像 检 索 …………… 
8.3 理解 图 俐 和 
8.3.1 图 像 表示 
8.3.2 ”特征 提取 
Wy A 3 
8.4.1] 卷 积 神经 网 络 玖 i 
0 Ee ee 
8.4.3 局 部 敏感 散 列 pp 
5 :外 刘 示 祭 庆 的 图 俐 二 aa 
8 .6 电 结 和 
第 9 章 性 能 一 殴 pp 
9.1 深度 学 习 的 性 能 与 约定 pp 
9.2 ”有 索引 和 神经 元 协同 工作 ………………………… 
9.3 ”使 用 数据 流 
9 .4 A ee 
展望 未 来 


200 





当 搜 索 遇 上 深度 学 习 











建立 能 够 有 效 啊 应 用 户 需求 的 搜索 引擎 并 非 易 事 。 传 统 上 , 为 了 让 搜索 引擎 在 真实 的 数据 集 
上 正 冲 工作 ， 需 要 在 搜索 引擎 的 内 部 进行 许多 手动 调整 。 此 外 , 座 度 神经 网 络 非常 善于 从 大 量 数 
据 中 学 习 有 用 的 信息 。 在 本 书 的 第 一 部 分 ,我 们 将 着 手 人 研究 如 何 将 搜索 引擎 与 神经 网 络 结合 使 用 ， 
以 解决 一 些 凋 见 的 问题 ， 并 为 用 户 提供 更 好 的 搜索 体验 。 


























伸 经 搜索 





本 章 内 容 

口 搜索 基本 原理 的 概括 介绍 

口 搜索 中 的 重要 问题 

口 神经 网 络 使 搜索 引擎 更 局 效 的 原因 








假如 你 想 了 解 人 工 智 能 研究 的 一 些 最 新 突破 , 应 该 如 何 查 找 相 关 信 息 ?” 你 需要 付出 多 少时 间 
和 努力 才能 得 到 所 需 信息 ? 如 果 你 在 一 个 大 型 图 书馆 里 , 可 以 询问 图 书 管理 员 哪 些 书 与 这 个 主题 
相关 ,他 们 可 能 会 推荐 几 本 他 们 知道 的 。 理 想 情况 下 ,图 书 管理 员 还 会 建议 你 浏览 一 下 这 几 本 书 
中 的 特定 音节。 

虽然 这 听 起 来 很 价 单 , 但 是 网 书 管理 员 通 稼 与 你 来 目 不 同 的 专业 领域 , 这 意味 春 你 们 对 该 领 
域 的 重点 可 能 会 有 不 同 的 理解 。 图 书馆 可 能 有 不 同 语 言 的 书 , 而 图 书 管理 员 也 可 能 说 看 与 你 不 一 
样 的 语言 。 考 虑 到 “最 新 ”是 一 个 相对 的 时 间 概 仿 ， 图书 管理 员 关 于 这 个 主题 的 信息 有 可 能 已 经 
过 时 了 , 而且 你 不 知道 图 书 管理 员 最 近 一 次 阅读 关于 人 工 智能 的 资料 是 什么 时 候 , 或 者 图 书 饰 是 
否定 期 接收 该 领域 的 出 版 物 。 此 外 ,图 书 管 理 员 可 能 不 能 正确 理解 你 的 询问 ,甚至 可 能 以 为 你 在 
从 心理 学 的 角度 谈论 智能 。 你 们 只 有 在 反复 交流 后 才能 相互 理解 , 从 而 使 你 得 到 一 点 所 需 信息 。 

在 这 之 后 , 你 可 能 会 发 现 图 书馆 里 根本 没有 你 需要 的 书 , 或 者 你 所 需要 的 信息 分 散在 儿 本 书 
中 ， 你 必须 将 这 些 书 全 都 谈 冠 。 这 真是 费时 费力 ! 

除非 你 目 己 就 是 一 名 “图 书 管理 员 ”， 和 否则 在 互联 网 上 进行 搜索 的 时 候 ， 这 种 现象 会 党 各 出 
现 。 我 们 可 以 把 互联 网 看 作 一 个 巨大 的 图 书馆 ， 在 这 里 ， 有 很 多 不 同 的 “图 书 管 理 员 ”来 帮助 你 
碍 找 信息 ,它们 就 是 搜索 引擎 。 有 的 搜索 引擎 专 精 于 某 一 主题 ， 有 的 只 了 解 “网 书馆 ”中 的 一 部 
分 书 ， 甚 至 只 了 解 一 本 书 。 

现在 想象 有 这 样 一 个 人 ,我 们 就 叫 他 罗 比 吧 ， 他 既 玖 悉 图 书馆 ， 又 玖 悉 来 访 者 ， 可 以 更 好 地 
找到 你 要 找 的 东西 。 他 能 帮助 你 和 图 书 管 理 员 沟通 ,让 你 更 快 地 得 到 答案 。 比 如 罗 比 可 以 通过 提 
供 视 外 的 上 下 文 来 帮助 图 书 管 理 员 理解 来 访 者 的 询问 。 罗 比 知 近来 访 者 通 帝 读 些 什么 , 所 以 他 跳 
过 了 所 有 关于 心理 学 的 书 。 而 且 , 罗 比 在 图 书馆 里 读 了 很 多 书 ， 能 更 好 地 洞察 人 工 智 能 领域 中 什 






























































J 这 是 我 生活 中 发 生 的 真实 事件 。 
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么 更 重要 。 如 有 有 像 罗 比 这 样 的 顾问 来 帮助 搜索 引擎 更 高 效 地 工作 , 同时 帮助 用 户 获 得 更 多 有 用 
的 信息 ， 那 将 极为 有 益 。 

本 书 的 重点 是 使 用 一 种 在 机 融 学 习 领 域 被 称 为 深度 学 习 ( deep learning ) 的 技术 来 建立 模型 
和 算法 ， 让 搜索 引 苟 更 高 效 地 工作 。 深度 学 习 算 法 将 扮演 上 文中 罗 比 的 角色 ,帮助 搜 索引 苟 提供 
更 好 的 搜索 体验 ， 并 回 最 终 用 户 提 供 更 精准 的 答案 。 

需要 着 重 提醒 的 是 ,深度 学 习 与 人 工 智能 ( artificial intelligence ) 是 不 同 的 。 如 图 1-1 所 示 ， 
人 工 智 能 是 一 个 巨大 的 研究 领域 , 机 各 学 习 只 是 人 工 乔 能 中 的 一 部 分 ,而 深度 学 习 则 是 机 右 学 习 
的 一 个 子 领域 。 基 本 上 ，, 深度 学 习 人 研究 的 是 如 何 使 用 深度 神经 网 络 计算 模型 让 机 和 奋进 行 “ 学 也 。 


























图 1-1 人 工 贸 能、 机 可 学 习 以 及 诬 度 学 习 


1.1 神经 网 络 及 深度 学 习 

本 书 的 目标 是 使 你 能 够 在 搜索 引擎 中 使 用 深度 学 习 技术 改进 搜索 体验 和 结果 。 即使 不 打算 构 
建 下 一 个 谷歌 搜索 引擎 ,你 也 能 够 在 中 小 型 搜索 引擎 中 使 用 深度 学 习 技 术 , 为 用 户 提供 更 好 的 体 
验 。 神 经 搜索 能 帮助 你 自动 完成 工作 ， 而 无 须 手动 执行 。 例 如 ， 你 将 学 习 如 何 从 搜索 引擎 数据 中 

















日 动 提 取 同 义 词 ， 从 而 避免 手动 编辑 同义词 文件 〈 第 2 半 )。 不 论 在 哪 种 应 用 场景 下 或 在 哪个 领 
域 中 ， 这 都 能 提高 搜索 效率 、 克 省 时 间 。 在 为 搜索 推荐 优质 相关 内 容 方面 (第 6 章 将 介绍 ), 使 
用 神经 搜索 和 深度 学 习 能 起 到 同样 的 作用 。 在 许多 情况 下 , 提供 普通 的 搜索 并 导航 到 相关 内 容 就 
能 使 用 户 满意 。 本 书 还 将 介绍 一 些 更 具体 的 实例 ， 比 如 跨 语言 的 内 容 搜 索 (第 7 草 ) 和 图 像 搜索 
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对 于 本 书 将 讨论 的 技术 ， 唯 一 要 满足 的 条 件 是 : 有 足够 多 的 数据 输入 神经 网 络 。 但 在 实际 应 
用 中 ， 人 们 很 难为 “足够 多 的 数据 ”定义 一 般 性 标准 。 因 此 ,我 们 总 结 一 下 本 书 中 所 列举 的 每 个 
问题 所 需要 的 最 少 文档 ( 文本 、 图 像 等 ) 数量 ， 话 见 表 1-1。 


表 1-1 神经 搜索 技术 针对 每 个 任务 所 需 的 文档 数量 














任 : : 间 所 需 的 最 少 文档 数量 (范围) 所 在 的 章 
学 习 单词 表示 1000~10 000 第 2 草 、 第 5 章 
文本 生成 10 000~100 000 第 3 草 、 第 4 章 
学 习 文 档 表 示 1000~10 000 第 6 章 
机 禹 翻译 10 000~100 000 第 7 章 
学 习 图 像 表示 10 000~100 000 第 8 章 





注意 ， 表 1-1 中 的 数字 源 于 经 验 ， 不 必 严 格 还 循 。 例 如 ， 即 使 一 个 搜索 引擎 的 文档 数 少 于 
10 000 个 ,你 仍然 可 以 尝试 实现 第 7 童 中 的 神经 机 器 翻译 技术 。 但 是 你 应 该 考虑 到 ， 这 时 候 获 得 
高 质量 结果 (例如 完美 的 翻译 ) 的 难度 可 能 会 更 大 。 

在 阅读 本 书 时 , 你 将 学 到 很 多 关于 次 度 学 习 的 知识 , 以 及 在 搜索 引擎 中 实现 这 些 次 度 学 习 基 
本 原理 所 需 的 所 有 搜索 基础 知识 。 因 此, 如 采 你 是 搜索 工程 师 或 非常 愿意 学 习 神 经 搜索 的 程序 员 ， 
本 书 就 非常 适合 你 。 

你 不 必 预 先 了 解 次 度 学 习 及 其 原理 。 本 书 在 引导 你 解决 特定 类 型 的 搜索 问题 时 ,会 逐个 研究 
一 些 具 体 算法 ,在 此 过 程 中 ,你 会 对 深度 学 习 了 人 解 得 越 来 越 多 。 现 在 ,本 书 将 从 一 些 基 本 定义 入 
手 。 深 度 学 习 是 机 桥 学 习 的 一 个 子 领 域 , 在 这 个 领域 中 ,计算 机 能 够 借助 深度 神经 网 络 ， 了 逐步 地 
学 习 表 示 和 识别 事物 。 深 度 人 工 神 经 网 络 ( artificial neural network ) 是 一 种 计算 范式 ， 最 初 灵感 
来 目 于 神经 元 组 织 成 大 脑 的 方式 (尽管 大 脑 比 人 工 神经 网 络 复杂 得 多 )。 通常 ， 信 息 流入 输入 层 
( input layer ) 的 神经 元 , 然后 通过 隐藏 的 神经 元 网 络 [ 它们 形成 一 个 或 多 个 隐藏 层 ( hidden layer ) |， 
再 通过 输出 层 (outputlayer ) 的 神经 元 输出 。 神 经 网 络 也 可 以 看 作 黑 盒 : 根据 每 个 网 络 的 训练 目 
的 ,通过 智能 晒 数 将 输入 转换 为 输出 。 普 通 的 神经 网 络 至 少 有 一 个 输入 层 、 一 个 隐藏 层 和 一 个 输 
出 层 。 当 一 个 网 络 有 多 个 隐藏 层 时 ， 我 们 称 之 为 深度 神经 网 络 。 在 图 1-2 中 ， 可 以 看 到 一 个 具有 
两 个 隐藏 层 的 深度 神经 网 络 。 
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图 1-2 ”具有 两 个 隐藏 层 的 帝 度 神经 网 络 


在 详细 介绍 神经 网 络 之 前 , 请 先后 退 一 步 。 前 文 曾 提 到 , 深度 学 习 是 机 融 学 习 的 一 个 子 领域 ， 
而 机 带 学 习 是 人 工 智能 领域 的 一 部 分 。 那 么 ， 什 么 是 机 融 学 习 呢 ? 


1.2 ”什么 是 机 怖 学 习 


在 深入 学 习 深 度 学 习 和 搜索 细 市 之 前 ， 先 概述 基本 的 机 融 学 习 概 念 会 有 极 大 的 帮助 。 许 多 应 
用 于 人 工 神 经 网 络 学 习 的 概念 ， 如 监督 学 习 ( supervised learning ) 和 无 监督 学 习 ( unsupervised 
learning )、 训 练 ( training ) 和 预测 ( predicting )， 都 来 目 机 融 学 习 。 让 我 们 快速 回顾 一 下 机 需 学 
习 的 一 些 基本 概念 ， 本 书 将 在 介绍 次 度 学 习 搜 索 应 用 的 过 程 中 使 用 这 些 概念 。 

机 需 学 习 是 一 种 基于 算法 来 目 动 解决 问题 的 方法 ， 它 可 以 从 经 验 中 学 习 问 题 的 最 优 解决 方 
宁 。 在 许多 情况 下 ， 这 种 经 验 成 对 出 现 ， 包括 以 前 观 凤 到 的 数据 ， 以 及 人 们 希望 算法 从 中 推断 出 
的 结 末 。 例 如 ， 可 以 给 机 融 学 习 算法 提供 文本 对 ， 其 中 输入 是 一 些 文本 ， 输 出 是 一 个 类 别 ， 用 于 
对 类 似 的 文本 进行 分 类 。 现 在 想象 你 回 到 了 图 书馆 , 但 这 次 是 作为 一 名 图 书 管理 员 。 你 购买 了 成 
千 上 万 本 书 ， 想 把 它们 有 序 地 陈列 在 书架 上 ， 以 方便 人 们 查找 。 为 此 ， 你 希望 对 它们 进行 分 类 ， 
将 同一 类 的 书 放 在 同一 个 书架 上 (书架 上 可 能 有 一 个 小 标签 表示 类 别 )。 如 果 先 花 几 个 小 时 手动 
对 书 进行 分 类 ,那么 你 就 构建 了 机 茶 学 习 算 法 所 需 的 经 验 。 然 后 ,你 可 以 根据 自己 的 理性 判断 来 
训练 一 个 机 器 学 习 模型 ， 它 将 蔡 你 对 剩余 的 图 书 进行 分 类 。 
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在 这 种 类 型 的 训练 中 ， 由 你 指定 与 每 个 输入 对 应 的 输出 类 型 。 这 种 训练 被 称 为 监督 学 习 
( supervised learning )。 由 一 个 输入 及 其 对 应 的 目标 输出 所 组 成 的 一 对 样本 ,被 称 为 训练 样本 


(training sample )。 表 1-2 展示 了 为 了 帮助 创建 监督 学 习 算 法 ， 图 书 管理 员 可 以 手动 进行 的 一 些 
从 并 








J AS 
表 1-2 图 书 分 类 的 实例 

书 名 文 本 分 类 
Taming Text If you re reading this book, chances are you'Te a programmer... NLP， 检 索 
Relevant Search Getting a search engine to behave can be maddening... 搜索 ， 相 关 
OAuth 2 in Action If you’re a software developer on the web today... 安全 ，OAuth 
The Lord of the Rings 5 奇幻 ， 小 说 
Lucene in Action Lucene 1s a powerful Java search library that lets you... Lucene， 搜 索 


监督 学 习 算 法 会 在 被 称 为 训练 阶段 ( training phase ) 的 过 程 中 输入 类 似 表 1-2 中 的 数据 。 在 
训练 阶段 ， 机 需 学 习 算 法 处 理 训 练 集 〈 训练 样本 的 集合 )， 并 学 习 如 何 映 射 ， 比 如 将 输入 文本 映 
射 到 输出 的 类 别 中 。 机 需 学 习 算 法 学 习 的 内 容 取 决 于 它 将 用 于 完成 什么 任务 ,在 本 例 中 , 它 应 用 
于 文档 分 类 ( document categorization ) 任务 。 机 需 学 习 算 法 的 学 习 方 式 取 决 于 算法 本 身 的 构建 方 
式 。 并 不 只 有 一 种 算法 可 用 于 机 需 学 习 ， 机 需 学 习 有 不 同 的 子 领域 ， 这些 子 领域 存在 许多 不 同 的 
算法 。 





























说 明 深度 学 习 只 是 利用 神经 网 络 实现 机 器 学 习 的 一 种 方法 。 当 要 决定 哪 种 神经 网 络 最 适合 用 于 
完成 菜 项 任务 时 ,往往 有 大 量 的 选择 。 在 本 书 中 ,我 们 将 主要 讨论 基于 深度 学 习 的 机 器 学 
习 。 我 们 偶尔 也 会 快速 介绍 其 他 类 型 的 机 器 学 习 工 法， 主要 是 为 了 比较 和 分 析 真实 场景 。 





训练 阶段 完成 后 , 通 稼 会 得 到 一 个 机 器 学 习 模 型 。 可 以 将 其 看 作 捕 获 算法 在 训练 期 间 所 学 内 
容 的 一 个 制品 ( artifact )， 这 个 制品 将 用 于 预测 。 当 模型 接收 到 一 个 不 包含 任何 期 望 输出 的 新 输 
入 时 , 便 开始 预测 。 然 后 模型 根据 在 训练 阶段 所 学 到 的 内 容 ， 给 出 一 个 正确 的 输出 。 需 要 注意 的 
是 ， 如 果 你 想 输出 好 结果 ， 就 需要 在 训练 阶段 提供 大 量 数据 (不 是 数 百 个 ， 而 是 至 少数 万 个 训练 
样 相 。 

在 图 书 分 类 的 例子 中 ， 当 给 定 以 下 文本 时 ， 模 型 将 提取 “搜索 ”和 “Lucene” 等 类 别 。 


Lucene is a powerful Java search library that lets you easily add search to 
any application ... 











这 是 Lucene in Action 第 2 版 的 开场 白 。 

就 像 前 面 提 到 的 ,提取 出 来 的 “类 别 ” 信 息 可 用 于 将 同一 类 别 的 图 书 放 在 图 书馆 的 同一 个 书 
染 上 。 那 么 , 除了 人 为 地 提供 一 套 已 经 做 好 分 类 的 图 书 作 为 训练 集 ， 是 否 还 有 其 他 方法 来 实现 这 
个 功能 呢 ? 如 果 能 找到 一 种 方法 来 判别 几 本 书 之 间 的 相似 度 ， 就 可 以 把 内 容 相 似 的 书 放 在 一 起 ， 
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而 不 用 太 在 意 每 个 图 书 类 别 的 确切 名 称 。 如 果 要 在 不 进行 事先 分 类 的 前 提 下 达成 这 个 目的 , 可 以 
使 用 无 监督 演习 技术 将 类 似 的 文档 聚集 在 一 起 。 与 监督 学 习 相 反 ,， 在 无 监督 学 习 中 ,， 机体 学 习 算 
法 在 学 习 阶 段 并 没有 任何 期 望 输出 ， 它 会 从 读 取 的 数据 中 提取 模式 和 数据 表示 。 在 聚 类 过 程 中 ， 
每 个 输入 数据 片段 〈 在 本 例 中 ,是 一 本 书 的 文本 ) 都 转换 为 图 表 上 的 一 个 点 。 在 训练 阶段 ， 聚 类 
算法 分 类 放置 每 一 个 点 , 并 且 假 设 位 置 相 近 的 点 在 语义 上 彼此 相近 。 训 练 结束 后 ,同类 图 书 就 可 
以 放 在 书 染 上 相应 的 位 置 。 

在 这 个 例子 中 , 无 监督 学 习 的 输出 是 一 组 聚 类 ， 每 个 聚 类 包含 分 配 好 的 点 。 如 前 文 所 述 ， 这 
类 模型 可 以 用 来 进行 预测 ， 比 如 预测 这 本 新 书 / 这 个 点 属于 哪个 集合 。 

机 融 学 习 可 以 帮助 解决 许多 问题 ， 包 括 图 书 分 类 和 相似 文本 分 组 。 和 截至 21 世纪 初 ， 人 们 已 
经 为 解决 这 类 任务 尝试 过 各 种 技术 ,以 取得 展 好 的 效果 。 最 后 ,不论 是 在 大 学 的 人 研究 实验 室 还 是 
工业 中 , 深 民 学 习 者 成 为 了 主流 。 由 于 深度 学 习 能 更 好 地 解决 许多 机 占 学 习 问题 , 因此 广为人知 ， 
其 使 用 也 变 得 更 加 频繁 。 深度 学 习 取 得 的 成 功 和 它 的 广泛 使 用 不 仅 让 图 书 分 类 和 聚 类 变 得 更 加 精 
硝 ， 而 且 还 带 来 了 许多 其 他 方面 的 进步 。 


1.3” 深 度 学 习 能 为 搜索 做 什么 


使 用 深度 人 工 神经 网 络 能 帮助 解决 搜索 问题 , 这 个 领域 被 称 为 神经 搜索 。 本 书 将 介绍 用 在 搜 
索引 擎 中 的 神经 网 络 的 组 成 、 工 作 方 式 和 应 用 实践 。 






































神经 搜索 
神经 搜索 ( neural search ) 是 “神经 信息 检索 ”( neural information retrieval ) 一 词 的 一 种 不 
太 学 术 的 表达 形式 。 “神经 信息 搜索 ”一 词 最 早出 现在 2016 年 SIGIR 大 会 的 一 个 研讨 会 上 , 该 
研讨 会 重点 讨论 深度 神经 网 络 在 信息 检索 领域 的 应 用 。 





你 可 能 会 好 否 : 既然 已 经 拥有 了 很 好 的 网 络 搜索 引擎 , 并且 我 们 经 稼 能 够 利用 它们 找到 所 需 
要 的 东西 ， 那 为 什么 还 需要 神经 搜索 呢 ? 

深度 神经 网 络 有 以 下 优点 。 

口 提供 能 捕获 单词 和 文档 语义 的 文本 数据 表示 ， 从 而 让 机 带 识 别 出 语 义 相似 的 单词 和 文档 。 

口 生成 在 特定 语 境 中 有 意义 的 文本 ， 比 如 ， 用 于 创建 聊天 机 各 人 。 

口 提供 图 像 的 表示 。 这 种 表示 与 像素 无 天 ， 而 是 与 它们 的 组 成 对 象 有 关 。 这 使 我 们 能 够 建 
立 有 效 的 人 脸 / 对 象 识别 系统 。 

口 高 效 地 完成 机 骨 翻 详 。 

D 在 某 些 假设 下 逼近 任何 函数 “。 从 理论 上 讲 ， 深度 神经 网 络 能 完成 的 任务 种 类 是 没有 限 
制 的 。 














中 参见 Kurt Hornik、Maxwell Stinchcombe 和 Halbert White 的 文章 “Multilayer Feedforward Networks Are Universal 
Approximators”， 刊 载 于 Neural Networks，1989 年 第 2 卷 、 第 5 期 ， 第 359~366 页 。 
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这 听 起 来 可 能 有 点 抽象 ， 所 以 让 我 们 来 看 看 这 些 功 能 如 何 帮 助 搜 索 工程 师 和 (或 ) 用 户 。 在 
使 用 搜索 引擎 时 ， 我 们 只 考虑 主要 的 难点 。 你 很 可 能 会 遇 到 如 下 问题 。 

口 无 法 获得 良好 的 搜索 结果 : 虽然 找到 了 一 些 相关 的 资料 ， 但 都 不 是 真正 需要 的 那个 。 

口 搜索 所 需 信息 花费 的 时 间 过 长 〈 最 后 放弃 了 )。 

口 要 很 好 地 理解 想 学 习 的 主题 ， 就 得 通读 许多 搜索 到 的 结 

口 需要 母语 版 的 资料 ， 搜 到 的 有 用 资料 却 是 英语 的 。 

口 曾经 在 网 站 上 看 到 过 某 张 图 片 ， 但 再 也 找 不 到 了 。 

上 述 这 些 问题 很 常见 ,解决 办 法 也 多 种 多 样 。 令 人 兴奋 的 是 ， 如 有 果 信息 沛 选 得 当 ， 深度 神经 
网 络 可 以 在 上 述 所 有 情况 下 发 挥 作用 。 

在 深度 学 习 算 法 的 帮助 下 ， 搜 索引 擎 能 够 完成 如 下 任务 。 

口 为 最 终 用 户 提供 相关 性 更 强 的 结果 ， 提 高 用 户 满 意 度 。 

口 用 和 搜索 文本 一 样 的 方法 来 搜索 二 进 制 内 容 ， 比 如 图 像 。 例 如 ， 用 户 可 通过 输入 “picture 

of a leopard hunting an impala” 这 样 的 一 段 文字 来 找到 需要 的 图 片 ( 当然， 你 不 是 谷歌 搜 
索引 擎 ”)。 

口 为 使 用 不 同 语 言 的 用 户 提 供 所 需 内 容 ， 让 更 多 用 户 能 够 访问 搜索 系统 中 的 数据 。 

口 对 所 提供 的 数据 更 加 敏感 ， 也 就 是 说 查询 没有 结 采 的 情况 会 减少 。 

如 有 果 你 曾经 设计 、 实 现 或 配置 过 搜索 引 敬 ,那么 你 肯定 遇 到 过 这 样 一 个 问题 如何 获得 适合 
手中 数据 的 解决 方案 。 深度 学 习 有 助 于 为 这 些 问题 提供 解决 方案 , 使 这 些 解 决 方案 准确 地 基于 数 
据 本 身 ， 而 非 固定 的 规则 或 算法 。 

搜索 结果 的 质量 对 最 终 用 户 来 说 至 关 重 要 。 搜 索引 擎 必须 保证 匹配 到 的 结果 是 用 户 最 需要 的 
言 息 。 合理 排序 的 搜索 结果 可 以 让 用 户 更 简单 、 更 快 地 找到 所 需 结果 ， 这 就 是 为 什么 我 们 一 再 强 
调 相 关 结 果 这 个 话题 。 在 实际 生活 中 , 这 会 产生 巨大 的 影响 。 深 度 神经 网 络 可 以 根据 用 户 查 询 历 
史 或 搜索 引擎 内 容 ， 上 自动 调整 用 户 的 查询 内 容 。 

如 今 , 人 们 已 经 习惯 了 使 用 网 络 搜索 引擎 来 搜索 图 像 。 例 如 , 在 谷歌 搜索 引擎 上 搜索 ”pictures 
ofangry lions”， 就 能 得 到 相关 性 很 强 的 图 片 。 在 深度 学 习 出 现 之 前 ， 这 些 网 像 必 须 先 使 用 元 数据 
( metadata， 关 于 数据 的 数据 ) 摘 述 其 内 容 , 然后 才能 放 入 搜索 引 苟 。 而 这 些 元 数据 通常 必须 人 工 
输入 。 而 由 于 深度 神经 网 络 可 以 抽象 出 图 像 的 表示 ,用 于 表示 图 像 中 的 内 容 ， 因 此 不 需要 人 工 干 
预 就 可 以 将 图 像 描 述 放 入 搜索 引擎 中 。 

因为 在 网 络 搜索 这 样 的 场景 ( 搜索 互联 网 上 的 所 有 网 站 ) 中 , 用 户 可 能 来 自 世 界 各 地 ， 所 以 
最 好 能 够 允许 用 户 通 过 母语 进行 搜索 。 此 外 ， 即 便 用 户 搜 索 时 使 用 的 是 瑞 语 ,搜索 引擎 也 可 以 根 
据 用 户 的 个 人 资料 ， 以 用 户 的 母语 返回 搜索 结果 。 这 是 技术 查询 的 常见 情景 ,因为 很 多 内 容 是 用 
英语 生成 的 。 深度 神经 网 络 的 一 个 有 趣 的 应 用 被 称 为 神经 机 器 翻译 , 这 是 一 组 通过 次 度 神经 网 络 
将 一 段 文本 从 源 语言 翻译 成 目标 语言 的 技术 。 































































































@ 可 能 是 作者 的 俏皮 话 ， 谷 歌 搜索 引擎 能 实现 ， 但 你 不 是 谷歌 搜索 引擎 ， 所 以 要 通过 本 书 掌握 通过 文字 搜索 图 像 的 
方法 。 一 一 译 者 注 
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同样 令 人 兴 香 的 是 , 利用 深度 神经 网 络 可 以 改变 搜索 引 敬 向 用 户 返 回 相 关 信息 的 方式 。 最 常 
见 的 情况 是 , 搜索 引 敬 在 啊 应 搜索 查询 时 给 出 搜索 结果 列表 。 深度 学 习 技 术 可 以 让 搜索 引 苟 只 返 
回 一 条 结果 ， 而 该 结果 能 够 提供 用 户 需 要 的 所 有 信息 “”。 这 将 避免 用 户 为 了 获得 所 需 的 所 有 知 
识 而 不 得 不 查看 每 个 结果 。 我 们 甚至 可 以 将 这 些 想法 聚合 起 来 ,构建 一 个 搜索 引擎 ， 为 来 自 世 界 
各 地 的 用 户 无 颖 提供 他 们 所 需要 的 单个 文本 和 图 像 ， 而 非 一 系列 搜索 结 
这 些 都 是 神经 搜索 应 用 的 案例 。 可 以 想象 , 神经 搜索 有 洪 力 彻底 改变 我 们 如 今 的 工作 方式 和 
使 用 搜索 引擎 的 方式 。 
计算 机 帮助 人 们 获取 所 需 信 息 的 方法 有 很 多 。 虽然 神经 网 络 在 过 去 一 直 被 讨论 , 但 直到 最 近 
才 变 得 如 此 流行 ， 这 是 因为 研究 人 员 已 经 发 现 如 何 使 它们 比 从 前 更 有 将 。 例 如 ，21 世纪 初 ， 功 
能 更 强大 的 计算 机 所 提供 的 帮助 是 一 个 关键 进展 。 为 了 充分 发 挥 深度 神经 网 络 的 所 有 潜力 , 对 计 
算 机 科学 感 兴趣 的 人 士 , 尤其 是 上 自然 语言 处 理 、 计 算 机 视觉 和 信息 检索 等 领域 的 人 士 ， 将 需要 了 
解 这 种 人 工 神 经 网 络 在 实践 中 是 如 何 工 作 的 。 
本 书 是 为 那些 有 兴趣 利用 深度 学 习 构 建 智能 搜索 引擎 的 人 准备 的 。 这 并 不 意味 看 你 一 定 要 构 
建 下 一 个 谷歌 搜索 引擎 , 只 是 意味 者 你 可 以 利用 在 本 书 中 学 到 的 知识 为 你 的 公司 设计 并 实现 一 个 
高 效 的 搜索 引擎 ， 或 者 扩展 你 的 知识 库 , 将 深度 学 习 技 术 应 用 到 可 能 包括 网 络 搜索 引擎 的 大 型 项 
目 中 。 在 这 里 , 我 们 的 目标 是 丰富 你 关于 搜索 引 敬 和 深度 学 习 的 技能 ， 因 为 这 些 技能 在 许多 情况 
下 很 有 用。 例如 : 
口 训练 一 个 深度 神经 网 络 来 学 习 识 别 图 像 中 的 对 象 ， 并 在 搜索 图 像 时 利用 神经 网 络 已 学 到 
的 知识 ; 

口 使 用 神经 网 络 填充 搜索 引擎 搜索 结 采 列表 中 的 “相关 内 容 ” 栏 ; 

口 训练 神经 网 络 学 习 如 何 让 用 户 的 查询 更 具体 ( 更 少 但 更 好 的 搜索 结果 ) 或 更 广泛 ( 更 多 
的 搜索 结果 ， 即 使 有 些 可 能 不 太 相 关 )。 
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我 们 将 利用 信息 检索 库 Apache Lucene 和 深度 学 习 库 Deeplearning4j， 在 用 Java 编写 的 开源 
软件 上 运行 我 们 的 神经 搜索 示例 ,但 是 ,为 了 确保 本 书 中 介绍 的 技术 能 够 应 用 于 不 同 的 技术 场景 ， 
我 们 将 尽 可 能 多 地 关注 基本 原理 而 不 是 它 的 具体 实现 。 编 写本 书 时 ，Deeplearning4j 是 企业 中 广 
泛 使 用 的 深度 学 习 框架 ， 是 Eclipse Foundation 的 一 部 分 。 由 于 与 Apache Spark 等 流行 的 大 数据 
框架 集成 , 它 的 采用 率 较 高 。 本 书 的 完整 源 代码 可 以 在 Manning 网 站 的 本 书页 面 和 本 书 的 GitHub 
官方 页 面 找 到 。 当 然 ， 还 存在 其 他 深度 学 习 框 架 ， 例如 TensorFlow (来 日 谷歌 公司 ) 在 Python 
社区 和 研究 社区 中 很 流行 。 因 为 几乎 每 天 都 有 新 的 工具 发 明 出 来 , 所 以 我 决定 着 重 介 绍 一 个 相对 





































































































GD 参见 Christina Lioma 等 人 的 文章 “Deep Learning Relevance: Creating Relevant Information (As Opposed to Retrieving ID”。 

Q 该 论文 提出 了 一 种 信息 检索 配置 ， 该 配置 下 信息 检索 系统 不 检索 现 有 相关 信息 ， 而 是 通过 循环 神经 网 络 学 习 现 有 
相关 信息 后 生成 一 个 新 的 、 相 关 的 合成 文档 。 通 过 几 个 随机 的 查询 ， 显 示 这 个 合成 文档 相关 性 排序 最 高 。 这 就 是 
作者 所 说 的 “只 返回 一 条 结果 ， 而 该 结果 能 够 提供 用 户 需 要 的 所 有 信息 "”。 一 一 译 者 注 
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容易 使 用 的 深度 学 习 框 架 ， 它 可 以 很 容易 地 与 Lucene 集成 ， 而 Lucene 是 JVM 中 使 用 最 广泛 的 
搜索 库 之 一 。 

在 规划 本 书 内 容 的 时 候 , 我 决定 以 一 种 难度 递增 的 方式 来 呈现 各 个 曹 节 , 所 以 每 一 草 都 用 一 
种 广为人知 的 算法 ， 教 授 神 经 网 络 在 特定 搜索 问题 上 的 应 用 。 本 书 将 关注 前 沿 的 深度 学 习 算 法 ， 
但 无 法 窗 盖 所 有 的 内 容 。 本 书 的 目的 是 提供 恨 好 的 基础 ， 即 便 一 周 后 就 出 现 了 一 种 新 的 、 更 好 的 
基于 神经 网 络 的 算法 ， 这 一 基础 也 将 很 容易 拓展 到 新 算法 中 。 借助 深度 神经 网 络 , 我 们 希望 改进 
相关 性 、 查 询 理 解 、 图 像 搜 索 、 机 可 翻译 和 文档 推荐 。 如 果 你 对 这 些 都 不 了 解 ， 也 不 要 担心 ， 
本 书 将 介绍 一 些 不 使 用 深度 学 习 技术 就 可 以 完成 的 任务 ， 然 后 说 明 深 上 度 学 习 何 时 以 及 如 何 提 供 
帮助 。 

本 书 第 一 部 分 概述 神经 网 络 如 何 大 助 改 进 搜 索引 擎 。 该 部 分 将 介绍 神经 网 络 的 一 个 应 用 , 即 
通过 生成 同义词 来 帮助 搜索 引 苟 构建 同一 查询 的 多 个 版 本 ,第 二 部 分 将 主要 人 研究 基于 深度 学 习 的 
技术 ,以 使 搜索 查询 更 具 表 现 力 。 这 种 改进 了 的 表现 能 力 将 使 查询 与 用 户 的 意图 更 加 相符 ， 从 而 
使 搜索 引擎 返 回 更 好 ( 相关 性 更 强 ) 的 结果 。 第 三 部 分 将 人 研究 更 复杂 的 问题 ， 比 如 跨 语 言 搜索 和 
图 像 搜 索 ， 最 后 讨论 神经 搜索 系统 性 能 方面 的 问题 。 

在 此 过 程 中 ,我 们 也 会 停 下 来 思考 应 用 神经 搜索 的 准确 率 ， 以 及 如 何 度 量 最 终结 果 。 如 有 果 没 
有 数据 来 不 断 地 证 明 我 们 所 认为 的 好 的 东西 ,我们 就 不 会 走 得 太 远 。 我 们 需要 度量 在 有 与 没有 神 
奇 的 神经 网 络 的 情况 下 ， 我 们 的 系统 有 多 好 。 

本 草 从 搜索 引 敬 试图 解决 的 问题 和 这 些 问 题 的 常用 解决 方案 开始 , 介绍 关于 在 搜索 引擎 中 分 
析 、 接 收 和 检索 文本 的 基础 知识 ,因此 你 将 了 解 查询 如 何 影 响 搜索 结果 ， 以 及 如 何 解 决 优先 返回 
相关 结果 的 问题 。 我 们 还 将 揭示 常见 搜索 技术 中 国有 的 一 些 缺 点 , 进而 讨论 深度 学 习 在 搜索 环境 
中 能 起 什么 作用 。 然 后 , 本章 将 研究 深度 学 习 可 以 帮助 解决 哪些 任务 ， 以 及 它 在 搜索 领域 的 应 用 
有 哪些 实际 意义 。 这 将 有 助 于 你 了 解 神 经 搜索 在 现实 场景 中 能 袖 来 什么 ， 不 能 市 来 什么 。 


1.5 检索 有 用 的 信息 


我 们 首先 学 习 如 何 检 索 与 用 户 需 求 相关 的 搜索 结果 。 这 将 为 你 提供 所 需 的 搜索 基础 ,以便 理 
解 深度 神经 网 络 如 何 帮 助 建立 创造 性 的 搜索 平台 。 

第 一 个 问题 : 什么 是 搜索 引擎 ? 它 是 一 个 系统 ,一 个 运行 在 计算 机 上 的 程序 ， 人 们 可 以 用 它 
来 检索 信息 。 搜 索引 擎 的 主要 价值 在 于 ， 它 接收 “数据 ”， 并 被 期 望 提供 “信息 ”。 这 一 目标 意味 
者 搜索 引 苟 应 该 尽 其 所 能 理解 它 得 到 的 数据 ,以 便 提 供用 户 可 以 很 容易 使 用 的 内 容 。 而 用 户 很 少 
需要 关于 某 个 主题 的 大 量 数据 ,他们 需要 的 往往 是 特定 的 信息 ,并 且 更 乐于 看 到 一 条 答案 ， 而 非 
成 百 上 干 条 结果 。 

当 提 及 搜索 引擎 时 ， 大 多 数 人 会 想到 谷歌 搜索 、 必 应 搜索 、 百 度 搜 索 和 其 他 大 型 、 流 行 的 搜 
索引 擎 ， 这 些 搜索 引擎 能 访问 大 量 来 源 不 同 的 信息 。 但 是 ,还 有 许多 较 小 的 搜索 引擎 ,它们 专注 
于 特定 领域 或 主题 的 内 容 。 这 些 通常 被 称 为 垂直 搜索 引擎 ( vertical search engine )， 因 为 它们 处 
理 有 限 的 一 类 文档 或 主题 ， 而 不 是 现 有 网 络 上 的 全 部 内 容 。 垂 直 搜索 引擎 也 扮演 独 重要 的 角色 ， 
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为 它们 通常 能 够 提供 更 精确 的 结 灯 一 一 它们 是 为 特定 的 内 容量 映 定做 的 。 它 们 通 第 会 让 我 们 得 
到 准确 率 ( accuracy ) 更 高 的 、 粒 度 更 细 的 检索 结果 (对比 一 下 使 用 谷歌 搜索 和 使 用 谷歌 学 术 搜 
索 尝 术 文章 )。( 本 市 不 会 讨论 准确 率 的 评 细 定义 ， 只 会 把 它 当 成 一 般 意 义 上 对 问题 回答 的 准确 
座 。 但 准确 率 也 是 信息 检索 中 一 个 定义 明确 的 、 用 于 度量 检索 结果 有 多 好 、 多 准确 的 标准 术语 。) 
现在 我 们 不 区 分 数据 和 用 户 基数 的 大 小 ， 因 为 下 面 的 所 有 概念 都 适用 于 大 多 数 现 有 的 搜索 引擎 ， 
无 论 搜 索引 擎 大 小 。 

搜索 引 苞 的 主要 职责 通 第 包括 : 

口 索引 一 一 局 效 获取 和 存储 数据 ， 以 便 快速 检索 数据 ; 

D 查询 一 一 提供 检索 功能 ， 以 便 用 户 执 行 搜索 ; 

口 排序 一 一 根据 特定 的 度量 标准 来 呈现 和 排列 结 末 ， 最 大 程度 地 满足 用 户 的 信息 需求 。 

效率 ( efficiency ) 在 实际 应 用 中 非常 关键 。 如 条 用 户 为 获取 信息 花 了 太 多 的 时 间 ,， 那 么 下 次 
他 很 可 能 会 换 一 个 搜索 引擎 。 

但 是 搜索 引擎 如 何 处 理 页 面 、 图 书 和 类 似 的 文本 呢 ? 在 接 下 来 的 章节 中 ， 你 将 了 解 以 下 
内 容 : 

口 如 何 将 大 的 文本 分 成 较 小 的 部 分 ， 以 便 搜 索引 擎 收 到 指定 的 查询 后 能 快速 检索 文档 ; 

口 对 于 特定 的 查询 ， 如 何 获取 搜索 结果 的 重要 性 和 相关 性 的 基础 知识 。 

让 我 们 从 信息 检索 的 基础 知识 ( 索引 、 查 询 和 排序 ) 开始 。 在 深入 研究 这 个 问题 之 前 ， 需 要 
了 解 搜 索引 擎 是 如 何 完 成 对 大 型 文本 流 的 处 理 的 。 这 很 重要 , 因为 它 影 啊 搜 索引 擎 快速 搜索 和 提 
供 精 确 结果 的 能 


1.5.1 ” 文本、 词素 、 词 项 和 搜索 基础 


站 在 图 书 管理 员 的 角度 想 一 想 : 他 刚刚 收 到 一 条 关于 某 个 主题 的 图 书 查询 。 他 如 何 知 道 一 本 
书包 含 了 关于 某 个 主题 的 信息 ? 他 又 怎么 知道 一 本 书 里 有 某 个 特定 的 单词 ? 

提取 某 本 书 所 属 的 类 别 ( 如“ 人工 乔 能 ”和 “深度 学 习 ” 这 样 更 高 层次 的 主题 ) 与 提取 该 书 
中 包含 的 所 有 单词 不 同 。 例 如 ， 对 于 新 手 来 说 ， 分 类 使 搜索 一 本 关于 人 工 智 能 的 书 变 得 更 容易 ， 
因为 他 们 不 需要 预先 了 解 人 工 智 能 技术 或 作者 。 用 户 只 需 进 入 搜索 引擎 网 站 ,浏览 现 有 类 别 ， 并 
寻找 与 人 工 智 能 主题 足够 接近 的 内 容 即 可 。 但 是 ,对 于 人 工 智能 专家 来 说 ， 知 道 一 本 书 中 是 否 包 
含 “梯度 下 降 ”( gradient descent ) 或 “反问 传播 ”( back propagation ) 这 两 个 词 ， 有 助 于 发 现 关 
于 人 工 智能 领域 中 特定 技术 或 问题 的 更 细 粒 度 的 信息 。 

人 类 通常 很 难 记 住 一 本 书 中 所 包含 的 所 有 单词 , 却 可 以 通过 阅读 书 中 的 几 段 甚至 从 前 言 中 看 
出 一 本 书 的 主题 。 计 算 机 的 行为 往往 与 此 相反 。 它 们 可 以 轻松 地 存储 大 量 文本 ， 并“ 记 住 ” 数 百 
万 个 页 面 中 包含 的 所 有 单词 ,以便 在 搜索 时 使 用 ; 但 是 它们 不 擅长 提取 隐 仿 的、 分散 的 或 没有 在 
给 定 文本 中 直接 表 述 的 信息 ， 比 如 一 本 书 属于 哪个 类 别 。 例如, 一 本 关于 神经 网 络 的 书 可 能 根本 
没有 提 到 “人 工 智能 ”〈 尽 管 它 可 能 会 提 到 机 需 学 习 )， 但 是 它 仍 然 属于 “关于 人 工 乔 能 的 图 书 ” 
这 一 蜗 泛 的 类 别 。 
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我 们 先 看 看 计算 机 已 经 可 以 完成 得 很 好 的 任务 : 从 文本 流 中 提取 和 存储 文本 片段 | 也 称 为 
词 项 (term ) j。 你 可 以 把 这 个 过 程 称 为 文本 分 析 , 也 就 是 把 一 本 书 的 文本 分 解 为 所 有 组 成 它 的 单词 。 
假设 有 一 盘 磁 这 ， 一 本 书 的 内 容 以 流 的 形式 写 在 这 盘 磁 这 上 ， 还 有 一 台 机 顺 〈 文 本 分 析 算 法 )。 
你 将 磁带 作为 输入 搬入 这 人 台 机 需 中 ,， 输 出 是 磁 训 的 许多 片段 ， 每 个 输出 片段 包含 一 个 单词 、 一 个 
句子 或 一 个 名 词 短语 〈 例 如 “人 工 智能 ”)。 你 可 能 会 注意 到 ， 一 些 写 在 输入 磁带 上 的 单词 被 机 天 
行 噬 了 ， 没 有 以 任何 形式 输出 。 

因为 文本 分 析 算法 要 创建 的 最 终 单元 既 可 能 是 单词 , 也 可 能 是 一 组 单词 或 句子 , 甚至 是 单词 
的 一 部 分 , 所 以 我 们 将 这 些 片 段 称 为 词 项 。 词 项 可 以 被 视 为 搜索 引擎 用 来 存储 数据 以 及 检索 数据 
的 基本 单元 。 

这 是 最 基本 的 搜索 形式 之 一 一 一 关键 字 搜 索 ( keyword search ) 的 基础 : 用 户 输入 一 组 单词 ， 
并 期 望 搜 索引 擎 返回 包含 部 分 或 全 部 词 项 的 所 有 文档 。 几 十 年 前 ， 网 络 搜索 就 是 这 样 开 始 的 。 尽 
管 现在 的 许多 搜索 引擎 要 “ 智 总 ”得 多 , 但 是 许多 用 户 仍然 根据 他 们 期 望 的 搜索 结果 所 包含 的 天 
键 字 组 合 进 行 查 询 。 这 就 是 你 现在 要 学 习 的 内 容 : 用 户 在 搜索 框 中 输入 文本 后 ， 如 何 使 搜索 引擎 
返回 结果 。 查 询 〈query ) 就 是 我 们 所 说 的 用 户 为 搜索 某 物 而 输入 的 文本 。 虽 然 查询 只 是 文本 ， 
但 它 传达 了 用 户 需 求 ， 以 及 用 户 如 何 将 这 种 可 能 泛泛 或 抽象 的 需求 (例如 “我 想 了 解 人 工 智 能 领 
域 最 新 和 最 重大 的 人 研究”) 用 人 简洁 且 具 有 描述 性 的 方式 表达 出 来 (例如 “人 工 智 能 的 最 新 研究 ”， 
如 图 1-3 所 )。 
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搜索 引擎 


图 1-3 搜索 并 获得 结 


作为 用 户 ， 如 果 你 希望 找到 包含 单词 “search” 的 文档 ， 搜 索引 擎 将 如 何 返 回 这 些 文档 呢 ? 
一 种 比较 举 拙 的 方法 是 从 头 到 尾 检查 每 个 文档 的 内 容 ,， 直到 搜索 引擎 找到 匹配 的 内 容 。 但 是 ， 对 
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每 个 查询 执行 这 样 的 文本 扫描 将 非 第 费时 ， 对 许多 大 型 文档 尤其 如 此 。 
口 许多 文档 可 能 不 包含 “search” 一 词 ， 因 此 对 它们 进行 全 文 扫 描 是 对 计算 资源 的 浪费 。 
口 即使 一 个 文档 包含 单词 “search”, 但 是 它 可 能 出 现在 文档 的 末尾 , 这 就 要 求 搜索 引擎 “ 阅 
读 ” 前 面 的 所 有 单词 ， 然 后 才能 找到 与 “search” 匹 配 的 单词 。 
当 在 搜索 结果 中 找到 属于 查询 的 一 个 或 多 个 词 项 时 ， 就 称 为 匹配 或 命 
此 你 需要 找到 一 种 方法 ,快速 完成 这 个 检索 阶段 ,实现 这 一 目标 的 一 个 基本 方法 是 将 “I1like 
search engines” 这 样 的 句子 分 解 成 更 小 的 单元 : [L like, search, engines]。 这 是 实现 被 称 为 倒 排 索 
引 ( inverted index ) 的 高 效 存 储 机 制 的 先决 条 件 。 稍 后 会 讨论 倒 排 索引 。 文 本 分 析 程 序 通 常 被 组 
织 为 一 个 管道 ， 其 中 包含 一 条 组 件 链 ， 其 中 每 个 组 件 都 以 前 一 个 组 件 的 输出 作为 输入 。 这 类 管道 
通常 由 两 种 类 型 的 构件 组 成 。 
口 分 词 器 (tokenizer ) 将 文本 流 切 分 为 单词 、 短 语 、 符 号 或 其 他 单元 的 组 件 。 切 分 成 的 
单元 被 称 为 词素 (token )。 
口 词素 过 滤器 ( token filter ) 一 一 接受 词素 流 (来 自分 词 天 或 其 他 过 滤 融 ) 并 可 以 修改 、 删 
除 或 添加 新 词 又 的 组 件 。 
这 类 文本 分 析 管道 的 输出 是 一 系列 连续 的 词 项 ， 如 图 1-4 所 示 。 


1/0-1 like/2-6 search/7-13 engines/14-21 
一 一 一 一 -一 


图 1-4 使 用 一 个 简单 的 文本 分 析 管 道 获 取 “I like search engines” 中 的 单词 


现在 你 已 经 知道 文本 分 析 有 助 于 构建 快速 搜索 引擎 。 同 样 重要 的 是 , 它 控制 厦 如 何 将 查询 和 
文本 放 入 索引 中 进行 匹配 。 通 常 ,文本 分 析 管 道 可 以 用 于 过 滤 一 些 词 系 , 这些 词 素 被 认为 对 搜索 
引擎 无 用 。 笛 见 的 做 法 是 避免 存储 稼 用 词 项 ， 比 如 搜索 引擎 中 的 介词 或 冠 词 ， 因 为 这 些 词 语 存在 
于 大 多 数 身 文 文档 中 ,通常 你 也 不 希望 一 个 查询 返回 搜索 引 敬 中 的 所 有 结果 ,因为 有 些 结果 价值 
不 大 。 这 种 情况 下 ， 你 可 以 创建 一 个 词素 过 滤器 ， 负 页 删除 诸如 “the”“a”“an”“of”“in” 等 
词素 ， 同 时 又 让 所 有 其 他 词素 在 分 词 硕 生成 词素 时 得 以 输出 。 在 这 个 简单 的 例子 中 : 

口 分 词 带 将 在 每 次 过 到 空白 字符 时 切 分 词 系 ; 

口 词素 过 滤 厅 将 删除 与 黑 名 单 [ 也 称 为 停 用 词 表 ( stopword list ) | 匹配 的 词 双 。 

在 现实 生活 中 ,尤其 是 在 第 一 次 设置 搜索 引擎 时 , 通 闸 会 构建 几 种 文本 分 析 算 法 ,并 在 希望 
放 入 搜索 引 敬 搜索 的 数据 上 进行 尝试 。 这样 你 就 可 以 将 这 些 算法 处 理 内 容 的 方式 可 视 化 ， 比 如 生 
成 哪些 词 厅 ， 过 滤 哪 些 词 系 ,等 等 。 现 在 我 们 已 经 构建 了 这 个 文本 分 析 链 | 也 称 为 分 析 器 
( analyzer ) |]， 并 希望 确保 它 像 预 期 的 那样 工作 ， 过 滤 冠 词 、 介 词 等 。 现 在 ， 让 我 们 来 尝试 将 第 一 
个 文本 “the brown fox jumped over the lazy dog” 输 入 到 分 析 管 道中 ， 并 删除 其 中 的 冠 词 。 生 成 的 
输出 流 如 图 1-5 所 示 。 


brown/4-9 fox/10-13 jumped/14-20 over/21-25 lazy/30-34 dog/35-38 
2 加 一 一 四 > 


图 1-5 过 历 词素 图 
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生成 的 词 系 流 已 按 预 期 删除 了 “the” 词 又 , 这 一 点 可 以 从 图 开头 的 虚线 入 头 以 及 市 点 “over” 
和 “lazy” 之 间 看 到 。 词 闵 劳 边 的 数字 表示 每 个 词素 的 开始 和 结束 位 置 ( 以 字符 数 为 单位 )。 本 例 
中 最 重要 的 一 点 是 ， 对 于 “the” 的 查询 将 不 会 匹配 ， 因 为 分 析 徊 已 经 删除 了 所 有 这 样 的 词 系 ， 
并 且 它 们 最 终 不 会 成 为 搜索 引擎 内 容 的 一 部 分 。 在 现实 生活 中 , 文本 分 析 管道 通 前 更 为 复杂 , 在 
后 面 的 章节 中 ， 你 将 看 到 一 些 这 样 的 情况 。 在 了 解 了 文本 分 析 后 ， 让 我 们 看 看 搜索 引擎 如 何 存储 
用 户 要 查 启 的 文本 ( 和 词 项 )。 


1. 索引 

尽管 为 了 快速 检索 , 搜索 引 敬 需要 将 文本 切 分 成 多 个 词 项 , 但 用 户 往 往 希 望 搜索 结果 以 单个 
文档 的 形式 呈现 。 想 想 谷歌 搜索 引擎 的 搜索 结果 : 如 采 搜 索 “book”， 人 们 将 收 到 一 个 结果 列表 ， 
每 个 结果 由 标题 、 链 接 、 结 果 的 文本 片段 等 组 成 。 虽然 每 个 结果 都 包含 该 词 项 , 但 是 显示 的 文档 
所 包含 的 信息 及 内 容 比 匹配 词 项 的 文本 片段 多 得 多 。 实 际 上 ,从 文本 分 析 得 到 的 词素 与 它们 所 属 
的 原始 文本 的 引用 存放 在 一 起 。 

词 项 和 文档 之 间 的 这 种 链接 使 下 列 两 点 成 为 可 能 : 

口 匹配 查询 中 的 关键 学 或 搜索 项 ，; 

口 返回 引用 的 原始 文本 作为 搜索 结 

分 析 文 本 流 并 在 搜索 引 苟 中 存储 结果 词 项 (及 其 引用 的 文档 ) 的 整个 过 程 通常 被 称 为 索引 
( indexing )。 

采用 这 个 术语 的 原因 是 这 些 词 项 存储 在 倒 排 索引 (inverted index ) 中 。 倒 排 索 引 是 一 种 将 词 
项 映射 到 最 初 包含 它 的 文本 的 数据 结构 “。 也 许 最 简单 的 方法 是 把 它 看 作 一 本 实体 书 的 分 析 索 
引 ， 其 中 每 个 单词 条 目 都 指向 提 到 它 的 页 面 。 在 搜索 引擎 中 ， 单 词 是 词 项 ， 页 面 是 原始 文本 。 

从 现在 开始 ， 我 们 将 把 要 索引 的 文本 片段 (页面 、 图 书 ) 称 为 文档 ( document )。 为 了 可 视 
化 文档 被 索引 后 的 结果 ,假设 有 以 下 两 个 非常 相似 的 文档 。 

口 “the brown fox jumped over the lazy dog”( 文档 1 ) 

口 “a quick brown fox jumps over the lazydog”( 2) 

假设 我 们 使 用 前 面 定 义 的 文本 分 析 算 法 〈 市 有 售 用 词 “a” “an” 和 “the” 的 词素 切 分 )， 表 
1-3 显示 了 包含 此 类 文档 的 倒 排 索 引 的 恨 好 近似 。 

如 表 1-3 所 示 ， 词 项 “the” 没 有 条 目 ， 因 为 基于 停 用 词 的 词素 过 滤 需 已 经 删除 了 这 些 词素 。 
在 该 表 中 ， 你 可 以 找到 第 一 列 中 的 词 项 字典 和 一 个 记录 列表 ( posting list ) ”( 一 组 文档 标识 符 )， 
它们 与 每 一 行 的 每 个 词 项 相关 联 。 倒 排 索引 检索 包含 给 定 词 项 的 文档 的 速度 非常 快 : 搜索 引擎 选 



















































































GD 基本 上 ， 大 多 数 参 考 资料 将 inverted index 译 为 “ 倒 排 索引 ”， 本 文 也 按 此 翻译 。 实 际 上 倒 排 索引 和 排序 没有 任何 
关系 。inverted index 指 从 文档 中 摘出 词 项 ， 再 将 词 项 作为 关键 字 ， 建 立 词 项 与 文档 的 映射 。 也 就 是 说 ， 这 个 词 项 
本 来 是 从 文档 中 来 的 ， 是 文档 的 属性 ， 现 在 却 以 这 个 属性 为 关键 字 建 立 映 射 关 系 ， 所 以 这 是 一 个 反 向 或 者 说 送 回 
过 程 。 与 之 相对 的 是 “ 正 回 索引 ”( forward index )， 即 以 文档 为 关键 字 ， 文 档 中 的 词 项 为 其 值 建 立 的 映射 关系 。 

一 一 详 者 注 

@) 也 有 不 少 人 参考 资料 将 posting list 译 为 “ 倒 排 列表 ”， 该 列表 会 记录 每 个 索引 词 项 出 现 过 的 文档 集合 ， 以 及 命中 位 置 

等 信息 。 译 者 注 
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择 倒 排 索引 ， 查 找 搜索 词 项 的 条 目 ， 并 最 终 检 索 记 录 列 表 中 包含 的 文档 。 对 于 上 面 这 个 例子 ， 如 避 
果 你 搜索 词 项 “quick”， 倒 排 索 引 将 通过 查看 与 词 项 “quick” 对 应 的 记录 列表 返回 文档 2。 以 上 
是 一 个 将 文本 索引 入 搜索 引擎 的 简单 例子 。 


表 1-3 倒 排 索引 表 








词 项 文档 1D 
brown 1, 2 
fox 1 :2 
Jumped 1 
OVer 1，2 
lazy 1，2 
dog ER 
quick 2 
Jumps 1 











让 我 们 思考 索引 一 本 书 的 步骤 。 一 本 书 由 很 多 页 组 成 ,这 是 书 的 核心 内 容 , 但 同时 它 也 有 标 
题 、 作 者 、 编 辑 、 出 版 年 份 等 信息 。 你 不 能 对 所 有 内 容 使 用 相同 的 文本 分 析 管道 ， 因 为 你 不 能 从 
书 名 中 删除 “the” 或 “an”。 知 道 书 名 的 用 户 应 该 能 够 通过 精确 匹配 找到 它 。 如 果 文 本 分 析 链 从 
书 名 “Tika in Action” 中 删除 “in”， 那 么 针对 “Tika in Action” 的 查询 将 找 不 到 它 。 此 外 ， 对 于 
书 的 正文 内 容 , 你 又 想 避 免 保 留 这 些 词素 ,于 是 就 需要 一 个 在 过 滤 无 用 词 项 方面 更 主动 的 文本 分 
析 管 道 。 如 果 文 本 分 析 链 从 书 名 “Living in the Information Age” 中 删除 “in” 和 “the”， 应 该 不 
会 有 问题 ， 因 为 用 户 不 太 可 能 会 搜索 “Living Information Age”， 他 们 更 可 能 会 搜索 “Information 
Age”。 这 种 情况 下 ,信息 可 能 有 少许 丢失 或 没有 丢失 ,但 好 处 是 存储 的 文本 更 少 。 更 重要 的 是 ， 
这 样 可 以 提高 相关 性 (我们 将 在 下 一 市 讨论 这 一 点 )。 在 现实 生活 中 ， 一 种 常用 的 方法 是 在 同一 
个 搜索 引 敬 中 使 用 多 个 倒 排 索引 ， 为 文档 的 不 同 部 分 建立 索引 。 


2. 搜索 

在 搜索 引 敬 中 索引 T 了 一些 内 容 后 , 请 考虑 一 下 搜索 本 里。 历史 上 , 第 一 个 搜索 引 敬 允许 用 户 
使 用 特定 的 词 项 (也 称 关 键 字 ) 进行 搜索 ,后 来 又 引入 布尔 运算 符 ， 它 允许 用 户 确 定 搜索 结果 中 
哪些 词 项 必须 匹配 、 哪 些 禁止 匹配 或 哪些 可 以 匹配 。 最 帝 见 的 情 部 是， 查询 中 的 词 项 应 该 匹配 ， 
但 这 不 是 强制 性 的 。 如 有 果 和 希望 搜索 结果 必须 包含 这 样 一 个 词 项 ， 你 必须 添加 相关 的 运算 符 ， 例 如 
在 词 项 前 面 使 用 +。 像 "deep+learning for search "这样 的 查询 需要 结果 同时 包含 “deep” 和 "learning ”， 
还 可 以 选择 性 地 包含 “for” 和 “search”。 人 允许 用 户 指 定 匹 配 整 个 短语 而 不 是 单个 词 项 ， 也 是 很 
第 见 的 。 这 使 得 用 户 可 以 搜索 精确 的 单词 序列 ， 而 不 是 单个 单词 。 为 了 返回 必须 包含 “deep 
learning” 序 列 以 及 可 选 的 词 项 “for” 和 “search” 的 搜索 结果 ， 可 以 将 前 面 的 查询 改 为 “'“deep 
learning ” for search 。 

虽然 听 起 来 可 能 令 人 惊讶 , 但 是 文本 分 析 在 搜索 ( 检索 ) 阶段 也 很 重要 。 假 设 你 想 在 刚才 索 
引 的 数据 上 搜索 Deep Learning for Search 这 本 书 , 并 且 现 在 有 一 个 Web 界面 , 你 可 能 会 输入 类 似 
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“deep learning for search” 这 样 的 查询 。 这 项 检索 任务 的 难点 是 检索 到 正确 的 那 本 书 。 介 于 用 户 和 
传统 搜索 引擎 界面 之 间 的 第 一 样 东 西 是 查询 解析 器 ( query parser )。 

查询 解析 大 负责 将 用 户 输入 的 查询 文本 转换 为 一 组 子 句 , 这 些 子 句 表 明了 搜索 引擎 应 该 查找 
哪些 词 项 ， 以 及 在 倒 排 索引 中 查找 匹配 项 时 如 何 使 用 它们 。 在 前 面 的 查询 示例 中 , 查询 解析 融 负 
责 理解 符号 + 和 ”。 另 一 种 广泛 使 用 的 语法 允许 在 查询 词 项 之 间 放 置 布尔 运算 符 :“deep AND 
learning”。 在 这 种 情况 下 ， 查 询 解 析 器 将 为 “AND” 操 作 符 赋予 一 个 特殊 的 含义 : 它 左 边 和 右边 
的 词 项 是 必需 的 。 查 询 解析 融 可 以 被 看 作 一 个 函数 , 它 接 受 文本 并 输出 一 组 约束 条 件 用 于 底层 的 
倒 排 索引 ,以便 找 到 结果 。 让 我 们 再 看 一 个 查询 例子 ， 如 “人 工 乔 能 的 最 新 研究 ”( latest research 
in artificial intelligence )。 一 个 智能 的 查询 解析 器 创建 的 子 句 可 以 反映 单词 语义 。 例 如 ， 只 为 “人 
工 智能 ”(artificial intelligence ) 创建 一 个 子 句 ， 而 不 是 为 “artificial” 和 “intelligence” 设 置 两 个 
子 句 。 此 外 ， 可 能 “latest” 一 词 并 不 会 参与 匹配 ， 我 们 不 需要 包含 “latest” 的 结果 ， 而 希望 检 
索 最 近 “created” 的 结 采 。 因 此 , 一 个 好 的 查询 解析 融会 将 词 项 “latest” 转 换 成 一 个 可 以 表达 的 
子 句 ， 例 如 用 上 自然 语言 表示 为 “created between today and 2 months ago”。 查 询 引 苟 将 以 一 种 更 容易 
由 计算 机 处 理 的 方式 编码 这 样 一 个 子 句 ， 例如 create < today() AND created > (today ( ) 
- 60days)， 参 见 图 1-6。 
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图 1-6 查询 解析 
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在 索引 过 程 中 , 使 用 文本 分 析 管 道 将 输入 文本 切 分 成 要 存储 在 索引 中 的 词 项 , 这 被 称 为 索引 
时 文本 分 析 。 同 样 ， 在 搜索 过 程 中 也 可 以 应 用 文本 分 析 , 将 查询 字符 串 分 解 为 多 个 词 项 ， 而 这 被 
称 为 搜索 时 文本 分 析 。 当 搜索 时 生成 的 词 项 与 该 文档 引用 的 倒 排 索引 中 的 词 项 匹配 时 , 就 称 该 文 
档 被 搜索 引擎 检索 到 。 

图 1-7 左边 展示 了 一 个 索引 时 文本 分 析 ， 该 分 析 用 于 将 文档 文本 拆 分 为 词 项 。 这些 词 项 最 终 
都 存放 在 索引 中 ， 和 都 引用 文档 1。 索 引 时 文本 分 析 由 一 个 空 日 分 词 各 和 两 个 词素 过 滤 如 组 成 , 其 
中 前 者 用 于 删除 不 需要 的 停 用 词 (如 “the”)， 后 者 用 于 将 所 有 词 项 转换 为 小 写 〈 例 如 “Fox” 转 
换 为 “fox”)。 在 该 图 右上 角 ， 查 询 “lazy foxes” 被 传递 给 搜索 时 文本 分 析 ， 该 分 析 使 用 空白 分 
词 策 切 分 词 系 ,但 使 用 一 个 小 写 过 涯 着 和 一 个 词 干 (stemming ) 过 滤 角 进行 过 泪 。 词 于 过 滤 表 转 
换 词 项 ， 将 词根 的 变形 或 派生 词 还 原 为 词根 形式 ， 这 意味 着 删除 复数 后 弘 、 动 词 的 ing 形式 ， 等 
等。 在 本 例 中 ,，“foxes”( 复数 ) 被 转 换 为 “fox”( 单数 )。 
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处 理 文档 文本 
the big 有 e 、 过滤 里 
| ss , 词素 被 索引 ， 
Ver the 并 被 附加 到 
lazy do 二 文档 标识 符 上 
RE 停 用 词 





查询 项 与 倒 
排 索引 匹配 


图 1-7 索引 、 搜 索 时 分 析 和 词 项 匹配 


验证 索引 和 搜索 文本 分 析 管 违 是 否 按 预期 工作 的 第 见方 法 如 下 : 
(1) 收集 样本 内 容 ; 
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(2) 将 内 容 传递 给 索引 时 文本 分 析 链 ; 

(3) 建立 样本 查询 ; 

(4) 将 查询 传递 给 搜索 时 文本 分 析 链 ; 

(5) 检查 生成 的 词 项 是 否 匹 配 。 

例如 , 通 稼 在 索引 时 使 用 俘 用 词 过 滤 希 , 因为 这 时 执行 过 滤 不 会 对 检索 阶段 产生 任何 性 能 影 
啊 。 但是, 在 驼 引 或 搜索 阶段 也 可 能 有 其 他 过 滤 融 。 有 了 索引 时 和 搜索 时 文本 分 析 链 和 查询 解析 ， 
就 可 以 了 解 检 索 搜 索 结 果 的 过 程 了 。 

你 已 经 知道 了 搜索 引擎 的 一 项 基本 核心 技术 是 文本 分 析 ( 词素 切 分 和 过 滤 )， 它 使 系统 能 够 
将 文本 分 解 为 你 希望 用 户 在 查询 时 输入 的 词 项 ， 并 将 它们 放 入 一 个 被 称 为 倒 排 索引 的 数据 结构 
中 ， 实 现 高 效 的 存储 (空间 上 高 效 ) 和 检索 ( 时间 上 高 效 )。 然 而 ， 作 为 用 户 ， 我 们 不 想 查看 所 
有 的 搜索 结果 ， 所 以 我 们 需要 搜索 引擎 告诉 我 们 哪些 结果 应 该 是 最 好 的 。 那 么 , 什么 是 最 好 的 结 
果 ? 对 于 一 个 给 定 的 查询 , 是 否 有 一 个 度量 来 评判 得 到 的 结果 有 多 好 ? 答案 是 肯定 的 , 这 个 度量 
就 是 相关 性 。 对 搜索 结果 进行 准确 的 排序 是 搜索 引擎 必 须 完 成 的 最 重要 任务 之 一 。1.5.2 节 将 简 
要 介绍 如 何 处 理 相 关 性 问题 。 


1.5.2 ”相关 性 优先 


前 文 介 绍 了 给 定 一 个 查询 , 搜索 引 敬 如何 检索 一 个 文档 。 本 市 将 介绍 搜索 引擎 如 何 对 搜索 结 
末 进 行 排序 ,以 优先 返回 最 重要 的 结 末 。 这 将 使 你 对 常见 搜索 引擎 的 工作 原理 有 一 个 深入 的 了 解 。 

相关 性 是 搜索 中 的 一 个 关键 概念 , 它 是 对 结果 文档 相对 于 茶 个 搜索 查询 的 重要 性 的 度量 。 人 
类 笛 筑 很 容易 判断 对 于 一 个 查询 而 言 ， 为 什么 某 些 文档 比 其 他 文档 更 相关 。 因 此 , 理论 上 可 以 答 
试 提 邦 一 组 规则 来 表示 人 们 关于 对 文档 重要 性 进行 排序 的 知识 。 但 实际 上 , 这 种 做 法 可 能 会 失败 ， 
为 : 

口 我 们 所 拥有 的 信息 量 不 足以 从 中 提取 一 组 适用 于 大 多 数 文档 的 规则 ; 

口 随 春 时 间 的 推移 ， 搜 索引 擎 中 的 文档 会 发 生 很 大 的 变化 ， 因 此 需要 不 断 调 整 规 则 ; 

口 搜索 引擎 中 的 文档 可 以 属于 不 同 的 领域 (例如 在 网 络 搜索 中 )， 不 可 能 找到 一 组 适用 于 所 

有 类 型 信息 的 好 规则 。 

言 居 检索 领域 的 中 心 主题 之 一 是 定义 一 个 无 须 工程 师 提炼 规则 的 模型 。 这 样 的 检索 模型 
( retrieval model ) 应 该 尽 可 能 准确 地 捕获 相关 性 的 概念 。 给 定 一 组 搜索 结果 ， 检 过 模型 将 对 它们 
进行 排序 : 结 末 越 相关 ， 分 数 越 高 。 

大 多 数 情况 下， 对 一 名 搜索 工程 师 而 言 , 仪 仪 选择 一 个 检索 模型 并 不 能 得 到 完美 的 结 琳 , 毕 
苋 相关 性 束 像 一 头 反 复 无 第 的 野兽 。 在 现实 生活 中 , 我 们 可 能 需要 不 断 地 调整 文本 分 析 管 道 和 检 
索 模 型 ， 并 对 搜索 引擎 内 部 进行 一 些 细 市 优化 。 而 检索 模型 可 以 提供 一 个 固定 的 基线 ( baseline ) 
来 获得 民 好 的 相关 性 。 
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1.5.3 ”经典 检索 模型 


向 量 空间 模型 ( vector space model，VSM ) “可 能 是 最 常用 的 信息 检索 模型 之 一 。 在 这 个 模 
型 中 ,每 个 文档 和 查询 都 表示 成 一 个 向 量 。 我 们 可 以 把 向 量 想象 成 坐标 平面 上 的 箭头 ,向量 空间 
模型 中 的 每 个 箭头 都 可 以 表示 一 个 查询 或 文档 。 两 个 箭头 越 接 近 ， 它们 就 越 相 似 ( 见 图 1-8 ); 每 
个 箭头 的 方向 由 组 成 查询 或 文档 的 词 项 定义 。 














相似 角 闻 项 2 











图 1-8 基于 VSM 的 文档 和 查询 向 量 之 间 的 相似 度 


在 这 样 的 癌 量 表示 中 ， 每 个 词 项 都 与 一 个 权重 相关 联 。 该 权重 是 一 个 实数 , 它 表 示 该 词 项 在 
该 文档 或 查询 中 相对 于 搜索 引 敬 中 其 他 文档 有 多 重要 。 权 重 可 以 用 不 同 的 方法 计算 。 本 市 不 会 深 
人 讨论 这 些 权 重 的 计算 方法 ,而 会 提 到 最 常见 的 算法 一 一 词 项 频率 - 逆 文 档 频 率 ( term frequency- 
inverse document frequency，TF-IDF )。TF-IDF 背后 的 其 本 思想 是 ， 一 个 词 项 在 一 篇 文档 中 出 现 
的 频率 ( 即 词 项 频率 ) 越 高 ， 它 就 越 重 要 ; 但 同时 ， 它 又 指出 ， 一 个 词 项 在 所 有 文档 中 越 和 常见 ， 
它 就 越 不 重要 ( 即 逆 文档 频率 )。 因 此 ， 在 癌 量 空间 模型 中 ， 搜 索 结 采 是 根据 查询 癌 量 进行 排序 
的 。 文 档 越 接近 查询 癌 量 ， 其 在 结果 列表 中 的 排序 或 分 数 就 越 高 。 

问 量 空间 模型 是 一 种 基于 线性 代数 的 信息 检索 模型 。 近 年 来 ,基于 概率 相关 性 模型 的 信息 检 
索 方法 不 断 涌现 。 概率 模型 不 计算 文档 和 查询 癌 量 之 间 的 距离 , 而 是 根据 文档 与 某 个 查询 相关 的 
概率 估计 值 对 搜索 结果 进行 排序 。 这 类 模型 最 常见 的 排序 也 数 之 一 是 Okapi BM25。 本 昔 不 会 深 
人 介绍 它 的 细 市 ， 但 它 已 经 显示 出 良好 的 效果 ， 在 不 太 长 的 文档 上 尤其 如 此 。 













































































中 参见 G Salton、A. Wong 和 C.S. Yang 的 文章 “A Vector Space Model for Automatic Indexing”, 刊载 于 Communications 
ofthe ACM 18，1975 年 第 11 期 ， 第 613~620 页 。 
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1.5.4 精确 率 与 召回 率 


后 面 的 章节 将 探讨 神经 搜索 如 何 帮助 处 理 相关 性 的 问题 ， 但 我 们 首先 需要 能 够 度量 相关 性 。 
度量 信息 检索 系统 性 能 的 一 种 标准 方法 是 计算 其 精确 率 (precision ) 和 召回 率 (recall ) "。 精 
确 率 是 检索 到 的 文档 与 查询 相关 的 比例 。 如 采 一 个 系统 具有 很 高 的 精确 率 , 用户 通 常 在 搜索 结 
条 列表 的 顶部 就 能 找到 他 们 正在 寻找 的 结果 。 人 召回 率 是 检索 到 的 相关 文档 的 比例 。 如 有 果 一 个 系 
统 有 很 高 的 召回 率 ， 用 户 会 在 搜索 结果 中 找到 所 有 相关 的 结果 , 但 是 它们 可 能 并 不 都 排 在 搜索 
结 采 的 前 列 。 

我 们 注意 到 ， 要 度量 精确 率 与 召回 率 ， 就 需要 有 人 判断 搜索 结果 的 相关 性 。 在 小 规模 的 任务 
中 ， 人 工 评 判 是 可 行 的 ; 但 是 对 于 大 量 文 档 ， 则 工作 量 过 大 ,很 难以 人 工 方式 进行 。 要 度量 搜索 
引擎 的 有 效 性 ， 一 种 选择 是 使 用 公开 的 数据 集 [ 如 美国 国家 标准 与 技术 研究 院 文 本 检索 会 议 
(NIST TREC ) 的 数据 集 ] 进行 信息 检索 ， 其 中 拥有 大 量 排 好 序 的 查询 ， 可 以 用 于 测试 精确 率 和 
召回 率 。 

本 市 学 习 了 一 些 经 典 信息 检索 模型 的 基础 知识 ,如 癌 量 空间 模型 和 概率 模型 。 下面 我 们 将 人 研 
究 影响 搜索 引擎 的 一 些 和 常见 问题 。 本 书 的 其 余部 分 将 讨论 借助 深度 学 习 解 决 它 们 的 方法 。 


1.6 未 解决 的 问题 


1.5 节 已 经 深入 介绍 了 搜索 引 警 的 工作 原理 ， 特 别 是 它 如 何 检索 与 用 户 需 求 相关 的 信息 。 现 
在 请 退 一 步 , 试 着 从 用 户 的 角度 来 思考 人 们 每 天 是 如 何 使 用 搜索 引擎 的 。 本章 将 研究 一 些 在 许多 
搜索 场景 中 未 解决 的 问题 ， 以 更 好 地 理解 借助 深度 学 习 有 望 解决 哪些 问题 。 

与 检索 信息 相 比 ,填补 知识 空白 是 一 个 稍为 复杂 的 主题 。 再 回 到 图 书馆 的 例子 ,你 想 知 道 更 
多 有 关 人 工 智能 领域 最 新 研究 的 有 趣 信息 。 当 遇 到 图 书 管理 员 时 ， 你 面临 一 个 问题 : 如 何 让 图 书 
管理 员 准 确 地 理解 你 需要 什么 ， 什 么 信息 对 你 有 用 ? 

虽然 这 听 起 来 很 简单 , 但 是 一 条 信息 的 有 用 性 几乎 不 是 客观 的 ， 而 是 相当 主观 的 ， 基于 环境 
和 个 人 观点 。 假 设 图 书 管理 员 有 足够 的 知识 和 经 验 ， 那 么 你 可 能 会 有 好 的 收获 。 在 现实 生活 中 ， 
你 可 能 会 向 图 书 管理 员 介 绍 自己 , 告诉 他 自己 的 情况 以 及 你 需要 某 些 信息 的 原因 ,从 而 让 图 书 管 
理 员 进行 如 下 工作 : 

口 在 尝试 搜索 之 前 就 把 一 些 书 排除 在 外 ; 

口 在 找到 一 些 书 后 将 它们 排除 ; 

口 明确 地 搜索 一 个 或 几 个 与 你 期 望 的 内 容 密切 相关 的 领域 (例如 来 自学 术 界 或 工业 界 )。 




























































































J 目前 机 天 学 习 中 度量 检索 结果 的 术语 并 没有 统一 译 法 ， 译 者 对 本 书 中 主要 提 及 的 术语 统一 如 下 。 
准确 率 〈accuracy ): 被 分 对 的 文档 数量 /系统 中 的 文档 总 量 ， 其 中 被 分 对 的 文档 数量 = 被 检索 出 的 文档 中 相关 文档 
数量 + 未 被 检索 出 的 文档 中 不 相关 文档 数量 。 
精确 率 ( precision ): 又 称 为 查 准 率 ， 检 索 出 的 文档 中 的 相关 文档 量 /检索 出 的 文档 总 量 。 
召回 率 (recall ): 又 称 为 查 全 率 ， 检索 出 的 文档 中 的 相关 文档 量 /系统 中 的 相关 文档 总 量 。 














一 一 译 者 注 
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之 后 你 就 可 以 对 图 书 管理 员 找 到 的 书 给 出 反馈 ， 有 时 候 你 可 以 根据 过 去 的 经 验 表 达 目 己 的 
想法 (例如 因为 日 己 不 喜欢 某 个 作者 写 的 书 ， 所 以 建议 图 书 管理 员 不 要 考虑 它们 )。 不 同时 间 、 
不 同人 的 语 境 和 观点 可 能 会 有 很 大 的 差异 , 从 而 影响 信息 的 相关 性 。 图 书 管理 员 如 何 处 理 这 种 差 
异 呢 ? 

作为 一 个 用 户 ,你 可 能 不 了 解 或 不 够 了 解 图 书 管理 员 。 但 是 ,图 书 管理 员 的 背景 和 观点 很 重 
要 , 因为 这 些 会 影响 你 得 到 的 结果 。 因此, 你 越 了 解 图 书 管理 员 , 就 越 能 快速 得 到 所 需要 的 信息 。 
只 有 了 解 了 图 书 管理 员 ， 才 能 得 到 更 好 的 结 末 。 

如 果 图 书 管 理 员 拿 出 一 本 关于 “深度 学 习 技 术 ” 的 书 来 回应 你 第 一 次 关于 “人 工 智能 ”的 询 
问 呢 ?如 末 你 不 知道 这 个 主题 ,， 丈 需要 对 “什么 是 深度 学 习 ” 以 及 图 书包 里 是 否 有 关于 诬 度 学 习 
的 好 书 进行 第 二 次 询问 。 这 个 过 程 可 能 重复 很 多 次 , 相互 理解 的 关键 在 于 信息 是 渐进 流动 的 一 一 
你 不 能 像 《 墨 客 帝国 》 里 的 角色 那样 把 资料 全 部 上 传 到 大 脑 里 。 相 反 ， 如 打 想 了 解 一 些 关 于 人 工 
镶 能 的 知识 , 就 需要 和 完了 解 一 些 关 于 深度 学 习 的 知识 , 而 为 了 达到 这 个 目的 , 了 就 需要 阅读 向 积分、 
线性 代数 等 相关 内 容 。 换 名 话说 ， 第 一 次 询问 时 ， 你 并 不 知道 目 己 需要 的 所 有 内 容 。 

综 上 所 述 ， 从 图 书馆 员 处 获取 想 要 信息 的 过 程 存在 一 些 缺 陷 ， 原 因 如 下 : 

D 图 书 管理 员 并 不 了 解 你 ; 

口 你 不 了 解 图 书 管理 员 ; 

口 你 与 图 书 管 理 员 需 要 反复 交流 来 获得 所 需 的 所 有 内 容 。 

认识 到 这 些 问题 是 很 重要 的 , 因为 我 们 想 要 使 用 深度 神经 网 络 来 帮助 构建 更 好 、 更 易 用 的 搜 
索引 敬一 一 我 们 布 望 深度 学 习 能 帮助 解决 这 些 问题 ， 而 理解 这 些 问 题 是 解决 它们 的 第 一 步 。 


1.7 打开 搜索 引 和 党 的 湾 金 


现在 ,请 试 着 了 解 一 下 用 户 能 理解 多 少 搜索 引 苟 所 做 的 工作 。 要 创建 有 效 的 搜索 查询 ,一 个 
关键 问题 是 使 用 哪 种 查询 语言 。 几 年 前 ， 用 户 需 要 在 搜索 框 中 输入 一 个 或 多 个 词 项 来 执行 查询 。 
今天 ,技术 已 经 发 展 到 允许 用 户 用 自然 语言 输入 查询 的 程度 ,一 些 搜索 引 警 用 多 种 语言 索引 文档 ， 
并 人 允许 进行 后 续 查 询 。 在 用 户 使 用 谷歌 搜索 等 搜索 引擎 搜索 某 物 时 ， 只 要 表达 方式 稍 有 不 同 , 搜 
索 结果 就 会 大 相 径 星 。 

现在 请 运行 一 个 小 实验 ,看 看 在 使 用 不 同 的 查询 表达 相同 的 请 求 时 ,搜索 结果 是 如 何 变 化 的 。 
在 和 一 个 人 谈话 时 ， 如 果 用 不 同 的 方式 问 同样 的 问题 ， 我 们 总 会 得 到 同样 的 答案 。 例 如 ,， 寿 你 问 
某 人 “你 认为 “人 工 智能 的 最 新 突破 ”是 什么 ”或 “你 认为 “人 工 智能 的 最 新 进展 ”是 什么 ”， 
你 得 到 的 答案 很 可 能 是 完全 相同 的 ， 或 者 至 少 在 语义 上 是 相同 的 。 

但 搜索 引擎 往往 不 是 这 样 。 表 1-4 显示 了 在 谷歌 搜索 引擎 上 搜索 “人 工 智能 最 新 突破 ”和 一 
些 略 有 变化 的 查询 得 到 的 结果 。 

虽然 第 一 个 查询 的 第 一 个 结果 并 不 奇怪 ， 但 是 将 “breakthrough”( 突破 ) 改 为 它 的 同义词 
“advancement”( 进步 ) 会 产生 不 同 的 结果 。 这 似乎 表明 ， 搜 索引 擎 对 查询 应 得 到 的 信息 有 不 同 
的 理解 。 你 知道 的 也 仅 限 于 此 ， 因 为 你 并 没有 调查 过 谷歌 公司 是 如 何 改进 人 工 智能 的 ! 第 三 个 查 
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询 给 出 了 一 个 令 人 尺 诈 的 结果 : 图 片 。 对 此 ， 我 们 也 无 法 解释 。 将 “artificial intelligence” 改 为 
它 的 首 字 母 缩写 “AI ， 会 得 到 一 个 不 同 但 仍然 相关 的 结果 。 用 意大利 语 查询 会 得 到 与 英语 查询 
完全 不 同 的 结果 : 一 个 关于 人 工 知 能 的 维基 百科 (Wikipedia ) 页 面 。 这 似乎 很 平帝 ， 因 为 谷歌 学 
术 会 索引 不 同 语言 的 人 研究 论文 。 

















表 1-4 相似 查询 的 结果 比较 


查 询 第 一 个 结果 的 标题 
Latest breakthroughs in artificial intelligence Academic papers for “latest breakthroughs in artificial intelligence” 
( 合 歌 学 术 ) 
Latest advancements in artificial ntelligence Google advancements artificial intelligence push with 2 top hires 
Latest advancements on artificial intelligence Images related to “latest advancements on artificial intelligence” 
( 合 歌 图 片 ) 
Latest breakthroughs in Al Artificial Intelligence News 一 ScienceDaily 


Piu recenti sviluppi di ricerca sull’ intelligenza artificiale Intelligenza Artificiale ( 维基 百科 ) 








搜索 引擎 的 排序 可 以 有 很 大 的 不 同 , 这 就 像 用 户 的 意见 一 样 。 尽管 搜索 工程 师 可 以 优化 排序 
来 啊 应 一 组 给 定 的 查询 , 但 要 针对 数 十 或 数 百 个 类 似 的 查询 进行 调整 是 很 困难 的 。 因此 在 现实 生 
活 中 ,我 们 不 会 手动 调整 搜索 结果 的 排序 , 这样 做 几乎 是 不 可 能 的 , 也 不 太 可 能 产生 一 个 总 体 良 
好 的 排序 。 

通 首 ， 执 行 搜索 是 一 个 试 错 的 过 程 : 发 出 一 个 初始 查询 ， 得 到 太 多 结 末 ; 发 出 第 二 个 查询 ， 
仍 得 到 太 多 结果 ; 第 三 个 查询 又 可 能 返回 你 不 感 兴趣 的 不 重要 的 结 末 。 用 搜索 查询 表达 信息 需求 
并 不 是 一 项 简单 的 任务 。 为 了 对 搜索 引擎 的 运作 方式 理解 更 深 , 你 经 常会 执行 一 堆 查 鹿 。 这 束 像 
试 者 往 一 个 黑 盒 子 里 看 ， 你 几乎 什么 也 看 不 到 ， 只 能 试 着 对 里 面 发 生 的 事情 做 出 假设 。 

在 大 多 数 情 况 下 ， 用户 没 有 机 会 了 解 搜索 引 苟 正在 做 什么 。 更 糟 的 是 , 根据 用 户 表 达 请 求 的 
方式 ， 和 情况 会 发 生 很 大 的 变化 。 

现在 你 已 经 了 解 了 搜索 引擎 的 一 般 工作 原理 ， 以 及 搜索 领域 中 尚未 完全 解决 的 一 些 重要 问 
剖 。 接 下 来 我 们 就 米 了 解 深度 学 习 ， 看 看 它 如 何 带 助 解决 或 改善 这 些 问 题 。 我 们 首先 概述 深度 神 
经 网 络 的 功能 。 


1.8 利用 次 度 池 习 解 决 问题 


至 此 , 我 们 已 经 探索 了 信息 检索 ， 为 学 习 神 经 搜索 做 好 了 准备 。 现 在 开始 , 我们 将 学 习 深 度 
学 习 ， 这 有 助 于 创建 更 智能 的 搜索 引擎 。 本 市 将 介绍 深度 学 习 的 基本 概念 。 

过 去 ,计算 机 视觉 (计算 机 科学 的 一 个 领域 , 处 理 和 理解 图 片 或 视频 等 视觉 数据 ) 的 一 个 关 
键 难点 是 , 在 处 理 图 像 时 几乎 不 可 能 获得 包含 其 中 的 对 象 和 视觉 结构 信息 的 图 像 表 示 。 如 何 让 计 
算 机 分 辨 一 幅 图 像 是 代表 一 只 奔跑 的 狮子 、 一 台 冰 箱 还 是 一 群 猴 子 呢 ? 深度 学 习 帮 助 解 决 了 这 个 
问题 ， 它 创建 了 一 种 特殊 类 型 的 深度 神经 网 络 ， 可 以 增 量 地 学 习 图 像 表 示 ， 每 次 进行 一 次 抽象 ， 
如 图 1-9 所 示 。 
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图 1-9 增 量 地 学 习 图 像 抽 象 








正如 本 半 前 面 提 到 的 , 座 度 学 习 是 机 融 学 习 的 一 个 于 领域 , 它 通过 学 习 越 来 越 有 意义 的 表示 
的 连续 抽象 ,来 学习 文本 、 图 像 或 数据 的 深度 表示 。 它 值 助 深 度 神 经 网 络 来 实现 这 一 点 (图 1-10 
显示 了 一 个 具有 3 个 隐藏 层 的 深度 神经 网 络 )。 记 住 ， 当 一 个 神经 网 络 至 少 有 两 个 隐藏 层 时 ， 就 
认为 它 是 深度 神经 网 络 。 








第 1 层 
(输入 层 ) 


vc 
KS 
Wy 


SN 
SN 
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图 1-10 一 种 具有 3 个 隐藏 层 的 这 度 前 任 神 经 网 络 








在 每 一 步 ( 或 网 络 的 每 一 层 )， 这 种 深度 神经 网 络 都 能 够 捕捉 到 数据 中 越 来 越 复 杂 的 结构 。 
计算 机 视觉 是 促进 图 像 表 示 学 习 算 法 发 展 和 推动 其 研究 的 领域 之 一 ， 这 并 非 偶 然 。 

研究 人 员 发 现 ， 使 用 这 样 的 深度 网 络 意义 非凡 ， 对 那些 高 度 组 合 的 数据 “而 言 尤其 如 此 。 这 
意味 着 ， 当 事物 是 由 成 分 相似 的 更 小 部 分 组 成 时 ,次 度 网 络 可 以 提供 极 大 的 帮助 。 图 像 和 文本 是 
组 合 数据 的 好 例子 ， 因 为 它们 可 以 增 量 地 分 成 更 小 的 单元 〈 例 如 文本 一 段落 一 句子 一 单词 )。 但 
是 , (深度 ) 神经 网 络 不 仅 对 学 习 表 示 有 用 ， 还 可 以 用 来 执行 许多 不 同 的 机 器 学 习 任务 。 前 文 提 
到 过 ， 文 档 分 类 任务 也 可 以 通过 机 器 学 习 方法 来 解决 。 

虽然 神经 网 络 的 架构 有 多 种 ， 但 通常 由 以 下 几 部 分 组 成 : 

口 一 组 神经 元 

口 所 有 或 部 分 神经 元 之 间 的 一 组 连接 

口 两 个 神经 元 之 间 每 个 有 问 连 接 的 权重 (一 个 实数 ) 

口 一 个 或 多 个 孔 数 ， 用 于 映射 每 个 神经 元 如 何 接收 和 疝 外 部 连接 传递 信号 





























GD 参见 H. Mhaskar、Q. Liao 和 工 Poggio 的 文章 “When and Why Are Deep Networks Better Than Shallow Ones?”， 刊 | 载 于 
Proceedings of the AAAT-17: Thirty-First AAAT Conference on Artificial Intelligence (Center for Brain, Minds & Machines)。 
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D 一 组 可 选择 的 层 ， 用 于 对 神经 网 络 中 具有 类 似 连接 的 神经 元 集合 进行 分 组 

如 图 1-10 所 示 ，20 个 神经 元 在 5 个 网 络 层 中 被 有 序 组 织 起 来 。 除 了 第 一 层 和 最 后 一 层 ， 
一 层 内 的 每 个 神经 元 都 与 邻近 各 层 ( 上 一 层 和 下 一 层 ) 的 所 有 神经 元 相连 。 按 照 惯例 ， 信 息 在 网 
络 中 从 左 问 右 流动 。 接 收 输入 的 第 一 层 被 称 为 输入 层 ; 最 后 一 层 被 称 为 输出 层 ， 输 出 神经 网 络 的 
结果; 中 间 的 层 被 称 为 隐藏 层 。 

想象 一 下 , 你 可 以 采用 与 文本 相同 的 方法 来 学 习 文 档 的 表示 , 这 种 表示 可 以 捕捉 文档 中 更 高 
级 的 抽象 。 基于 深度 学 习 的 技术 就 是 为 此 而 存在 的 , 随 厦 时 间 的 推移 , 这 些 算法 也 变 得 更 加 智能 : 
你 可 以 用 它们 来 提取 单词 、 句 子 、 上 段落 和 文档 的 表示 ， 这 些 表示 能 捕捉 到 非常 有 趣 的 语义 。 

在 使 用 神经 网 络 算法 学 习 一 组 文本 文档 中 的 单词 表示 时 , 紧密 相关 的 单词 在 癌 量 空间 中 彼此 
相 邻 。 想象 一 下 ， 为 一 段 文 本 中 包含 的 每 个 单词 在 二 维 图 上 创建 一 个 点 ,查看 它们 如 何 相 似 或 紧 
密 相 关 ， 如 图 1-11 所 示 。 用 一 个 名 为 word2vec 的 神经 网 络 算法 学 习 单 词 的 癌 量 表示 ( 也 称 为 词 
向量 ) 可 以 实现 这 一 点 。 请 注意 ,“Information” 和 “Retrieval” 两 个 词 彼此 靠 得 很 近 。 类 似 地 ， 
“word2vec” 和 “Skip-gram” 这 两 个 词 项 都 与 用 来 提取 词 回 量 的 〈 浅 层 ) 神经 网 络 算法 有 关 ， 它 
们 彼此 很 接近 。 
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图 1-11 来 自 word2vec 相关 人 研究 文章 文本 的 词 问 量 


神经 搜索 的 关键 思想 之 一 就 是 利用 这 种 表示 来 提高 搜索 引 敬 的 效率 。 如 果 有 一 个 具有 这 些 能 
力 的 检索 模型 ， 它 依赖 于 单词 和 文档 癌 量 ( 也 称 为 租 入 ，embedding )， 我 们 就 可 以 通过 查看 最 近 
邻 (nearestneighbor ) 来 高 效 计算 和 使 用 文档 和 单词 的 相似 度 。 图 1-12 显示 了 一 个 深度 神经 网 络 ， 
它 用 于 创建 索引 文档 中 包含 的 单词 的 表示 ,然后 将 这 些 单词 的 表示 放 和 人 搜索 引擎 ; 它们 可 以 用 来 
调整 搜索 结果 的 顺序 。 
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图 1-12 神经 搜索 应 用 : 使 用 由 深度 神经 网 络 生成 的 单词 表示 来 提供 更 相关 的 结 


1.7 市 比较 了 通过 文本 查询 表达 和 理解 信息 需求 的 复杂 性 ， 分析 了 语 境 的 重要 性 。 文 本 的 展 
好 语义 表示 通 篆 通过 结合 单词 、 句 子 或 文档 的 语 境 构 建 ， 以 便 推 新 出 最 合适 的 表示 。 请 看 前 面 的 
示例 ， 简 要 了 解 深 度 学习 算 法 如 何 帮 助 获 得 更 相关 的 绪 末 。 考 虑 表 1-4 中 的 两 个 查询 “latest 
breakthroughs in artificial intelligence” 和 “latest breakthroughs in AI”。 假设 我 们 正在 使 用 癌 量 空间 
模型 。 在 这 样 的 模型 中 ， 基 于 文本 分 析 链 ， 查 询 和 文档 之 间 的 相似 度 可 能 会 有 很 大 差异 。 但 是 ， 
由 最 近 出 现 的 基于 神经 网 络 的 算法 生成 的 文本 的 向 量 表 示 则 没有 这 个 问题 。 虽 然 “artificial 
intelligence” 和 “AI ”在 向 量 空间 模型 中 可 能 相隔 很 远 ， 但 是 ， 当 它们 使 用 由 神经 网 络 生成 的 单 
词 表示 进行 绘制 时 , 很 可 能 放 在 一 起 。 这 样 一 个 简单 的 变化 ,让 我 们 可 以 通过 基于 语义 的 单词 表 
示 来 提高 搜索 引擎 的 相关 性 。 

在 深入 人 研究 神经 搜索 应 用 之 前 ， 让 我 们 先 看 看 搜索 引擎 和 神经 网 络 是 如 何 合 作 的 。 









































深度 学 习 与 深度 神经 网 络 
我 们 需要 做 一 个 重要 的 区 分 。 深 度 学 习 主 要 通过 深度 神经 网 络 学 习 单 词 、 文 本 、 文 档 和 图 
像 的 表示 。 然 而 ,深度 神经 网 络 有 更 广泛 的 应 用 : 它们 可 以 用 于 语言 建 模 、 机 器 翻译 和 许多 其 
他 任务 。 本 书 会 明确 区 分 深度 神经 网 络 的 用 途 ， 比 如 用 来 学 习 表 示 ， 以 及 用 于 其 他 目的 。 除 了 
学 习 表 示 ， 深 度 神经 网 络 还 可 以 辅助 完成 许多 信息 检索 任务 。 
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1.9 索引 与 神经 元 


人 工 神 经 网 络 可 以 基于 训练 集 (市 有 标签 的 数据 ) 学 习 预 测 输出 (监督 学习 ， 其 中 每 个 输入 
市 有 关于 期 望 输出 的 信息 )， 或 者 为 了 提取 模式 或 学 习 表 示 ， 进 行 无 监督 学 习 《〈 每 个 输入 不 带 有 
关于 正确 输出 的 信息 ) 搜索 引擎 的 典型 工作 流程 包括 索引 和 搜索 内 容 ; 值得 注意 的 是 ， 这 些 任 
务 可 以 并 行 执 行 。 虽 然 这 上 听 起 来 像 是 一 个 技术 性 问题 ,但 原则 上 ， 集 成 搜索 引擎 与 神经 网 络 的 方 
式 是 很 午 要 的 ， 因 为 它 会 影响 神经 搜索 设计 的 效率 和 性 能 。 如 琳 一 个 超 精确 的 系统 运行 得 很 慢 ， 
那么 没有 人 会 想 要 使 用 它 。 本 书 中 会 介绍 几 种 集成 神经 网 络 和 搜索 引擎 的 方法 。 

口 训练 -然后 索引 一 一 和 完 用 一 系列 文档 ( 文本 、 图 像 ) 训练 网 络 ， 然 后 将 相同 的 数据 编 人 搜 

索引 擎 的 索引 中 ， 并 在 搜索 时 将 神经 网 络 与 搜索 引擎 结合 使 用 。 

口 索引 -然后 训练 一 一 先 将 一 系列 文档 编 入 搜索 引擎 的 索引 中 ， 然 后 用 索引 数据 训练 神经 网 

络 ( 在 数据 变化 时 再 次 训练 )， 最 后 在 搜索 时 将 神经 网 络 与 搜索 引擎 结合 使 用 。 
口 训练 -提取 -索引 一 一 和 完 用 文档 训练 网 络 ， 然 后 用 训练 过 的 网 络 创建 有 用 的 资源 ， 这 些 资 
源 将 与 数据 一 起 编 入 索引 。 实 际 搜 索 过 程 和 通常 一 样 ， 只 会 用 到 搜索 引擎 。 

在 本 书 中 ， 上 述 几 种 方法 都 将 在 合适 的 语 境 中 得 到 应 用 。 例 如 ， 训 练 -然后 索引 的 方法 将 在 
第 3 草 中 用 于 文本 生成 ; 索引 -然后 训练 的 方法 将 在 第 2 半 中 用 于 从 索引 数据 生成 同义词 ;而 在 
使 用 神经 网 络 学 习 时 《〈 如 学 习 索 引 数 据 的 语义 表示 )， 训 练 -提取 -索引 的 方法 就 涛 上 用 场 了 一 一 
在 搜索 时 使 用 这 种 方法 学 习 到 的 数据 语义 表示 ,不 再 需要 与 神经 网 络 进行 任何 交互 ， 这 束 是 第 8 
草 中 描述 的 图 像 搜 索 ; 本 书 的 最 后 一 章 还 简要 介绍 了 如 何 处 理 这 样 一 种 情况 : 数据 并 非 一 开始 就 
全 部 可 用 ， 而 是 以 流 媒 体 的 方式 到 达 。 


1.10 ”神经 网 络 训练 


要 使 用 神经 网 络 强 大 的 学 习 能 力 ， 就 需要 训练 它 。 通 过 监督 学 习 训 练 一 个 类 似 于 1.9 节 所 示 
的 网 络 ， 意 味 着 问 网 络 输入 层 提供 输入 , 将 网 络 预测 输出 与 已 知 目标 输出 进行 比较 ， 并 让 网 络 从 
预测 输出 与 目标 输出 之 间 的 差异 中 学 习 。 神经 网 络 可 以 很 容易 地 表示 许多 有 趣 的 数学 函数 ,这 束 
是 它们 准确 度 很 高 的 原因 之 一 。 这 些 数 学 函数 由 连接 的 权重 ( weight ) 和 神经 元 的 激活 函数 
( activation function ) 控制 。 神 经 网 络 学 习 算 法 利用 期 望 输出 与 实际 输出 之 则 的 差异 ,调整 每 一 层 
的 权重 ， 以 缩小 未 来 的 输出 误差 。 如 有 果 回 网 络 提 供 足 够 的 数据 ,那么 它 的 错误 率 将 非常 低 ， 性 能 
会 很 好 。 激活 函数 对 神经 网 络 的 预测 能 力 和 学 习 速 度 有 影 啊 , 激活 函数 控制 传 入 神经 元 的 信号 在 
什么 时 候 、 有 多 少 传输 到 输出 连接 。 

神经 网 络 最 常用 的 学 习 算法 是 反 向 传播 ( back propagation ) 算法 。 给 定期 望 输出 和 实际 输出 ， 
算法 将 每 个 神经 元 的 误差 反问 传播 ， 从 而 调整 每 个 神经 元 连接 上 的 内 部 状态 ,每 次 一 层 ， 从 输出 
到 输入 (反问 )， 参见 图 1-13。 每 个 训练 样本 都 使 反 回 传播 “调整 ”每 个 神经 元 的 状态 和 连接 ， 
以 缩小 网 络 对 特定 输入 和 期 望 输出 产生 的 误差 。 这 是 对 反问 传播 算法 工作 原理 的 粗略 描述 ， 当 你 
对 神经 网 络 更 加 熟悉 的 时 候 ， 本 书后 面 的 曹 节 会 仔细 人 研究 。 
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图 1-13 ”前 馈 步 又 ( 提供 输入 ) 和 反 向 步骤 ( 反 向 传播 误差 ) 





你 已 经 了 解 了 神经 网 络 是 如 何 学 习 的 , 现在 需要 决定 如 何 将 它 与 搜索 引擎 结合 。 搜 索引 擎 应 
该 能 持续 接收 要 索引 的 数据 ; 因为 新 内 容 会 不 断 增 加 ， 所 以 现 有 内 容 会 不 断 更 新 甚至 遭 到 删除 。 
虽然 在 搜索 引擎 中 文 持 这 个 过 程 相对 容易 和 快速 , 但 是 许多 机 带 学 习 算法 创建 的 静态 模型 不 能 随 
着 数据 的 变化 而 快速 调整 。 机 带 学 习 任 务 的 典型 开发 工作 流 包括 以 下 步骤: 

(1) 选择 和 收集 用 作 训 练 集 的 数据 ; 

(2) 将 训练 集 的 某 些 部 分 留 作 评价 和 优化 〈 测 试 和 交叉 验证 集 ); 

(3) 根据 算法 〈 前任 神经 网 络 、 文 持 回 量 机 等 ) 和 超 参数 ( 例如 神经 网 络 的 层 效 和 每 层 神经 
元 数 ) 训练 几 个 机 带 学 习 模 型 ; 

(4) 通过 测试 和 交叉 验证 集 评价 和 优化 模型 ; 

(5) 选择 性 能 最 好 的 模型 并 使 用 它 来 完成 任务 。 

如 上 文 所 示 , 这 个 过 程 的 目的 是 使 用 表态 训练 数据 生成 一 个 计算 模型 ， 以 解决 某 个 任务 或 问 
题 。 更 新 这 些 模 型 的 训练 集 ( 添加 或 修改 输入 和 输出 ) 通常 需要 重复 整个 步 又。 这 与 搜索 引擎 之 
类 的 系统 相 和 冲突， 因为 搜索 引擎 要 处 理 源源 不 断 的 新 数据 流 。 例 如 , 在 线 报纸 的 搜索 引擎 每 天 神 
会 更 新 许多 不 同 的 新 闻 条 目 , 设计 神经 搜索 系统 时 , 需要 考虑 到 这 一 点 。 神 经 网 络 是 机 带 学 习 模 
型 : 你 可 能 需要 对 模型 进行 重复 训练 ， 或 者 提出 解决 方案 ， 以 允许 神经 网 络 执行 在 线 学 习 (不 需 
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要 重复 训练 ) ”。 

想 想 某 些 身 语 单 词 的 意义 随时 间 的 演变 。 例 如 ,今天 的 “cell” 一 词 通常 指 细胞 或 手机 ,但 
是 ,在 手机 发 明之 前 ,“cell” 一 词 主 要 指 细 胞 或 监狱 。 有 些 概念 只 在 特定 的 时 间 段 内 才 会 与 某 些 
词汇 紧密 联系 在 一 起 。 例 如 ， 由 于 美国 总 统 每 四 年 选举 一 次 ， 因 而 在 2009 年 至 2017 年 期 间 
“President ofthe United States”( 美国 总 统 ) 指 巴 拉克 : 奥巴马 , 而 在 1961 年 至 1963 年 间 指 约翰 
非 次 杰 拉 德 . 肯尼迪 。 想 想 图 书馆 档案 室 里 的 书 ， 有 和 多少 里 面 有 “President of the United States” 
这 个 短语 ?由 于 成 书 时 间 的 不 同 ， 书 中 的 这 个 短语 很 少 指 同一 个 人 。 

前 文 提 到 , 神经 网 络 可 以 用 来 生成 获取 单词 语义 的 词 向 量 , 以 使 具有 相似 含义 的 单词 的 词 问 
量 彼此 相近 。 如 果 用 20 世纪 60 年 代 的 新 闻 文 草 训 | 练 模型 ， 并 将 其 与 用 2009 年 的 新 闻 文 草 训 练 
的 模型 牛 成 的 词 回 量 进 行 比较 ， 那 么 “President of the USA” 的 词 回 量 会 发 生 什 么 变化 呢 ? 后 一 
种 模型 中 的 词 问 量 “Barack Obama” 是 否 会 与 前 一 种 模型 中 的 词 问 量 “President of the USA” 放 
在 一 起 ?可 能 不 会 ， 除 非 你 教会 了 神经 网 络 正确 处 理 词义 随时 间 演 变 的 问题 “。 此 外 ， 普 通 的 搜 
索引 擎 可 以 很 容易 地 处理 诸如 “美国 总 统 ” 之 类 的 查询 ， 并 返回 包含 这 类 词 的 搜索 结果 ， 不管 这 
些 词 是 什么 时 候 输 入 到 倒 排 索引 中 的 。 


1.11 神经 搜索 的 前 景 


神经 搜索 是 在 不 同 阶 段 将 深度 学 习 和 深度 神经 网 络 集成 到 搜索 中 。 深度 学 习 获 取 深 层 语 义 的 
能 力 使 我 们 能 够 获得 能 较 好 适应 压 层 数据 的 相关 模型 和 排序 孙 数 ,深度 神经 网 络 可 以 等 习 图 像 表 
示 , 在 图 像 搜索 中 带 来 意 想 不 到 的 好 结果 。 简 单 的 相似 度 度 量 ， 如 余弦 距离 ,可 以 应 用 于 用 深度 
学 习 生 成 的 数据 表示 ， 以 捕获 盘 义 相似 的 单词 、 句 子 、 段 落 等 。 这 种 相似 度 度 量 有 很 多 应 用 ， 如 
用 在 文本 分 析 阶 段 或 推荐 相似 文档 。 与 此 同时 ,， 座 度 神 经 网 络 可 以 做 的 不 仅仅 是 学 习 表 示 ， 它 还 
可 以 学 习 生 成 或 翻 详 文 本 ， 以 及 如 何 优化 搜索 引擎 的 性 能 。 

如 全 书 所 示 , 搜索 系统 是 由 不 同 的 组 件 构 成 的 。 最 明显 的 部 分 是 将 数据 导 人 搜索 引擎 并 进行 
搜索 。 神 经 网 络 可 在 索引 过 程 中 使 用 ,以 在 数据 进入 倒 排 索引 之 前 增强 数据 ， 或 用 于 扩大 或 指定 
搜索 查询 的 范围 ， 以 提供 更 多 或 更 精确 的 结果 。 但 是 ,神经 网 络 也 可 以 用 来 给 用 户 提 供 知 能 的 建 
议 ， 带 助 他 们 输入 碍 询 或 在 后 人 台 翻 详 他 们 的 查询 ， 使 搜索 引擎 可 以 使 用 多 种 语言 。 

虽然 这 些 听 起 来 都 很 棒 , 但 是 你 不 能 直接 把 神经 网 络 扔 给 一 个 搜索 引擎 , 然后 期 望 它 目 动 变 
得 完美 。 每 一 个 决定 都 必须 根据 具体 情况 做 出 。 神 经 网 络 也 有 其 局 限 性 ,包括 训练 、 升 级 模型 的 
成 本 等 很 多 方面 。 但 是 ， 将 神经 搜索 应 用 到 搜索 引擎 中 是 一 种 让 它 更 好 地 为 用 户 服务 的 好 方法 。 
对 于 搜索 工程 师 来 说 ,他 们 可 以 探索 神经 网 络 的 美妙 之 处 。 










































































(中 参见 Andrey Besedin 等 人 的 文章 “Evolutive Deep Models for Online Learning on Data Streams With No Storage”; 
Doyen Sahoo 等 人 的 文章 “Online Deep Learning 一 Learning Deep Neural Networks on the Fly”。 
Q 参见 Zijun Yao 等 人 的 文章 “Dynamic Word Embeddings for Evolving Semantic Discovery”。 


1.12 ”总结 





口 搜索 是 一 个 难题 : 第 见 的 信息 检索 方法 部 有 局 限 性 和 缺点 ， 用 户 和 搜索 工程 师 都 很 难 让 
事物 的 效果 符合 预期 。 

口 文本 分 析 是 搜索 中 的 一 项 重要 任务 ， 在 索引 和 搜索 阶段 部 是 如 此 ， 因 为 它 准 备 数据 并 将 
其 存储 在 倒 排 索引 中 ， 并 且 对 搜索 引 敬 的 效率 有 重大 影响 。 

口 度量 搜索 引 敬 对 用 户 信 息 需 求 啊 应 程度 的 基本 标准 是 相关 性 。 一 些 信 息 检 索 模 型 可 以 给 
出 查询 结果 重要 性 的 标准 化 度量 ,但 并 没有 万 能 之 法 。 不 同 用 户 的 情况 和 观点 可 能 有 很 
大 差异 ， 因 此 搜索 工程 师 需 要 持续 关注 相关 性 度量 。 

口 深度 学 习 是 机 融 学 习 的 一 个 领域 ， 它 使 用 次 度 神 经 网 络 来 学 习 内 容 〈 文 本 ， 如 单词 、 句 
子 和 段落 ， 也 包括 图 像 ) 的 (深层 ) 表示 ， 这 些 内 容 表示 可 以 捕获 语义 上 相关 的 相似 度 
度量 。 

口 神经 搜索 是 连接 搜索 和 深度 神经 网 络 的 桥梁 ， 其 目的 是 利用 深度 和 学习 来 帮助 改进 与 搜索 
相关 的 不 同 任务 。 






































生成 同义词 





本 章 内 容 

口 在 搜索 中 使 用 同义词 的 原因 及 方法 
口 简要 介绍 Apache Lucene 

口 前 僻 神 经 网 络 基础 

口 word2vec 算法 的 使 用 

口 利用 word2vec 算法 生成 同义词 


第 1 革 高 度 概括 了 把 深度 神经 网 络 用 于 搜索 领域 的 各 种 可 能 性 , 包括 利用 深度 神经 网 络 通过 
文本 查询 基于 内 容 搜索 网 像 ， 以 及 用 自然 语言 生成 文本 查询 等 。 同 时 ， 你 也 学 习 了 搜索 引擎 的 基 
础 知识 ,以 及 它们 如 何 通 过 查询 找到 相关 结果 。 现在 ,你 可 以 开始 利用 深度 神经 网 络 来 解决 各 种 
搜索 问题 了 。 

我 们 将 以 一 个 浅 层 〈 而 非 次 度 ) 神经 网 络 来 开启 本 划 内 容 ， 并 且 利 用 这 个 神经 网 络 来 辨识 什 
么 时 候 两 个 单词 在 语义 上 相似 。 这 个 任务 看 似 简 单 ， 却 是 让 搜索 引 敬 能够 理解 自然 语言 的 关键 。 

在 信息 检索 中 ， 为 了 增加 与 搜索 内 容 相 关 的 结 采 数量 ,一 项 稼 用 技术 是 使 用 同义词 。 同 义 词 
增加 了 表示 查询 或 索引 文档 片段 的 潜在 方法 的 数量 。 比 如 ，“Ilike living in Rome” 这 人 句 话 也 可 以 表 
达成 “I enjoy living in the Eternal City”( Eternal City， 永 恒 之 城 ， 即 罗马 ) 由 于 “like” 和 “enjoy” 
以 及 “Rome” 和 “the Eternal City” 两 对 词 在 语义 上 相似 ， 因 此 这 两 句 话 所 表达 的 意思 几乎 相同 。 
同义词 有 助 于 解决 第 1 草 中 提出 的 问题 ， 即 图 书 管理 员 和 学 生 在 寻找 一 本 书 时 相互 理解 的 问题 。 
这 是 因为 同义词 的 使 用 让 人 们 能 够 通过 不 同 的 方式 表达 相同 的 概念 ， 并 且 检 索 到 相同 的 结 

本 章 将 开始 研究 同义词 ， 并 使 用 word2vec， 一 种 应 用 广泛 、 基 于 神经 网 络 、 学 习 单 词 表 示 
的 算法 。 学 习 word2vec 有 助 于 深入 了 解 神经 网 络 是 如 何在 实际 应 用 中 发 挥 作用 的 。 为 此 ， 你 需 
要 上 自 完 了 解 前 馈 神 经 网 络 ( feed-forward neural networks ) 的 工作 方式 。 前 馈 神 经 网 络 是 一 种 最 基 
本 的 神经 网 络 类 型 ， 也 是 深度 学 习 的 基础 。 在 此 之 后 ,我 们 将 学 习 前 人 馈 神 经 网 络 的 两 种 结构 : 
skip-gram 和 CBOW ( continuous-bag-of-words )。 由 于 这 两 种 结构 使 得 学 习 两 个 单词 什么 时 候 在 
意义 上 相同 成 为 可 能 ， 因 此 它们 能 用 来 较为 准确 地 判断 两 个 单词 是 否 是 同义词 。 你 将 看 到 如 何 利 
用 它们 提升 搜索 引擎 的 召回 率 ， 以 避免 遗漏 相关 的 搜索 结 

最 后 ,你 将 度量 通过 这 种 方式 搜索 引擎 性 能 可 以 提高 多 少 , 并 了 解 用 于 生产 系统 时 你 需要 权 
衡 哪些 利 浆 。 在 决定 何 时 何 地 将 这 些 技术 应 用 于 实际 场景 时 ， 了 解 这 些 利弊 非常 重要 。 
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2.1 同义词 扩展 介绍 


前 一 草 已 经 介绍 了 好 的 算法 对 文本 分 析 有 多 重要 : 算法 指定 了 将 文本 划分 为 更 小 的 片段 或 词 
项 的 方式 。 在 执行 查询 时 ,索引 时 生成 的 词 项 需要 与 从 查询 中 提取 的 词 项 匹配 。 这 项 匹配 工作 使 
得 所 需要 的 文档 能 被 搜索 引擎 找到 ， 并 显示 在 搜索 结果 中 。 

词 项 匹配 中 最 可 能 遇 到 的 一 个 隐 碍 是 ， 人 们 表述 同一 个 概念 的 方式 多 种 多 样 。 例 如 , “going 
for a walk in the mountains”( 到 山里 去 散步 ) 这 人 句 话 也 可 以 用 “hiking”( 远足 , 徒步 ,下 文 的 hike 
是 该 词 的 动词 原形 ) 或 “trekking”( 远足 ,人 徒步， 下 文 的 trek 是 该 词 的 动词 原形 ) 来 表达 。 如 采 
文本 的 作者 使 用 了 “hike” 这 个 单词 ， 而 用 户 在 搜索 时 使 用 的 是 “trek” ， 那 么 用 户 很 可 能 搜 不 到 
这 篇 文档 。 这 就 是 搜索 引擎 需要 能 够 识别 同义词 的 原因 。 

后 文 将 解释 如 何 利用 一 种 被 称 为 同义词 扩展 的 技术 , 让 使 用 几 种 方式 表达 同样 的 信息 成 为 可 
能 。 同 义 词 扩展 技术 尽管 很 受 欢 迎 , 但 也 有 其 局 限 性 。 其 中 尤为 突出 的 是 ， 由 于 同义词 会 随 肴 时 
间 的 推移 而 变化 ,因此 同义词 库 需 要 经 各 维护 ; 为 外 ,同义词 库 经 常 不 能 很 好 地 适应 要 索引 的 数 
据 ( 因为 这 些 同义词 库 往 往来 源 于 公开 可 获取 的 数据 )。 你 将 了 解 如 何 利 用 如 word2vec 这 样 的 算 
法 来 学 习 单 词 表 达 ， 并 且 利 用 其 生成 那些 需要 索引 的 数据 的 精确 同义词 。 

在 本 章 的 最 后 ,你 将 拥有 一 个 能 够 利用 神经 网 络 来 生成 同义词 的 搜索 引擎 , 这些 同 义 词 可 用 
于 装饰 ( decorate ) 被 索引 的 文本 。 下 面 用 一 个 例子 来 说 明 这 个 过 程 。 在 这 个 例子 中 ， 用 户 在 搜 
索引 警 用 户 界 面 输入 了 “musicis my aircraft” 这 条 查询 ( 稍 后 我 们 会 解释 为 什么 要 使 用 这 条 查询 )。 
整个 查询 过 程 及 结果 如 图 2-1 所 示 。 
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输入 查询 


搜索 引擎 


相似 的 单词 被 
添加 到 查询 词素 


向 神经 网 络 
提供 
会 一 生 


执行 调整 
1 
神经 网 络 输出 八 、、 后 的 在 
与 “aircraft” 


相似 的 单词 


神经 网 络 














图 2-1 搜索 时 基于 神经 网 络 的 同义词 扩展 
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主要 步骤 如 图 2-1 所 示 。 在 搜索 引擎 中 ， 查 询 首 先 巾 文本 分 析 管 道 进行 处 理 。 在 该 管道 中 ， 
同义词 过 滤器 ( synonym filter ) 将 利用 神经 网 络 生成 同义词 。 比 如 ， 神 经 网 络 将 返回 “airplane” 
“aeroplane” 和 “plane” 三 个 单词 作为 “aircraft” 的 同义词 。 这 些 生 成 的 同义词 将 全 部 作为 用 户 
查询 的 词 率 , 用 来 与 倒 排 索 引 中 的 词素 进行 匹配 。 最 后 , 对 搜索 结果 进行 汇总 。 这 就 是 大 体 步 骤 。 
不 用 担心 ， 本 闻 稍 后 会 仔细 探究 每 一 个 步骤 。 


2.1.1 为 什么 要 使 用 同 义 启 


同义词 是 指 拼写 与 发 首 不 同 ,， 但 语义 相同 或 相近 的 单词 。 例 如 ，“aircraft” 和 “airplane” 都 
是 单词 “plane” 的 同义词 。 在 信息 检索 过 程 中 ， 篆 稼 利用 同义词 来 装饰 文本 ， 以 增加 查询 结果 正 
确 匹 配 查询 的 可 能 性 。 是 的 , 我 们 在 讨论 可 能 性 , 因为 我 们 无 法 预料 到 所 有 可 能 的 信息 表达 方法 。 
同义词 扩展 不 是 让 你 理解 所 有 用 户 查 询 的 银 弹 ， 它 只 能 减少 搜索 结果 极 少 或 为 0 的 情况 。 

接 下 来 再 看 一 个 实例 , 在 这 个 例子 中 ,同义词 会 非 党 有用。 也 许 你 也 遇 到 过 这 样 的 情况 : 有 
一 首 歌 ， 具 体 歌 词 你 不 记得 了 ， 只 记得 它 的 片段 或 是 歌词 大 意 。 假 设 这 首 歌 的 副 歌 中 有 一 句 是 
“Music is my...” 后 面 是 什么 呢 ?” 是 汽车 、 船 ， 还 是 飞机 ?想象 一 下 ， 如 果 有 这 样 一 个 系统 ， 它 
搜集 了 所 有 歌词 ， 用户 可 以 在 这 个 系统 中 进行 搜索 。 如 果 搜 索引 擎 中 启用 了 同义词 扩展 技术 ， 那 
么 当 搜 索 “music is my plane” 时 ， 系 统 将 返回 要 查询 的 那 句 歌词 “music is my aeroplane”。 在 这 
种 情况 下 ， 同 义 词 的 应 用 让 用 户 得 以 通过 搜索 一 个 片段 或 不 完全 正确 的 单词 查询 到 相关 的 结 
(Red Hot Chili Peppers 乐队 的 歌曲 4eroplane )。 如 果 没 有 应 用 同义词 扩展 ， 那 么 用 户 将 不 可 能 通 
过 “mnusic is my boat”“music is myplane” 或 “music is my car” 这 样 的 查询 搜索 到 这 条 相关 结 

这 被 视 为 对 召回 率 的 改进 。 第 1 革 简 要 提 到 ,召回 率 是 一 个 介 于 0 和 1 的 数值 ， 等 于 检索 到 
的 相关 文档 数目 除 以 相关 的 文档 总 数 。 如 果 检 索 到 的 文档 都 与 查询 无 关 ， 则 召回 率 为 0; 如 果 所 
有 相关 文档 都 被 检索 到 了 ， 那 么 召回 率 为 1。 

同义词 扩展 技术 的 整体 思路 是 ， 当 搜索 引擎 收 到 一 个 词 项 流 时 ， 如 果 某 个 位 置 上 的 单词 存在 
同义词 ， 就 在 该 单词 的 同一 位 置 上 增加 它 的 同义词 。 在 “aeroplane” 这 个 例子 中 , 查询 词 项 的 同 
义 词 得 到 了 扩展 : 文本 流 中 “plane” 这 个 单词 所 在 的 位 置 ， 悄 然 无 声 地 被 单词 “aeroplane” 装 饰 
了 ， 详 见 图 2-2。 


起 始 位 置 
和 结束 位 置 
oo .0 
music/0-5 is/6-8 my/9-11 aeroplane/12-17 
一 
plane/12-17 


图 2-2 同义词 扩展 图 


这 项 技术 同样 可 以 应 用 于 索引 4eroplane 的 歌词 。 索 引 时 使 用 同义词 扩展 会 使 整个 过 程 稍稍 
变 慢 (因为 要 调用 word2vec 算法 )， 整 个 检索 目录 也 肯定 会 变 大 〈 因 为 需要 储存 更 多 的 词 项 )。 
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但 从 好 的 方面 来 讲 ， 搜 索 过程 会 变 快 ， 因 为 在 搜索 时 不 必 再 调用 word2vec。 随 者 系统 规模 和 人 负 
载 的 增长 ， 选 择 索引 时 还 是 搜索 时 做 同义词 扩展 将 对 系统 性 能 有 显著 影 吊 。 

在 了 解 了 同义词 在 搜索 过 程 中 非常 重要 的 原因 后 ,我 们 将 先后 探究 如 何 利 用 普通 技术 和 
word2vec 来 改进 同义词 扩展 。 这 将 有 助 于 更 好 地 理解 利用 word2vec 的 优势 。 


2.1.2 ”基于 词汇 表 的 同义词 匹配 


现在 我 们 来 看 看 如 何 实现 一 个 在 索引 时 局 用 同义词 扩展 的 搜索 引擎 。 实 现 同义词 最 简单 也 是 
最 常用 的 方法 是 癌 搜 索引 苟 输 入 词汇 表 , 其 中 包含 所 有 单词 及 其 相关 同义词 之 间 的 映射 。 这 样 的 
词汇 表 看 起 来 像 一 个 表 ， 每 一 个 主键 是 一 个 单词 ， 对 应 的 值 是 它 的 同义词 。 

aeroplane -> plane, airplane, aircraft 


boat -> ship, vessel 
car -> automobile 












































设想 ,将 4eroplane 的 歌词 纳入 搜索 引擎 进行 案 引 ， 并 且 利 用 上 述 词汇 表 进 行 同义词 扩展 。 
我 们 挑选 这 首 歌 副 歌 部 分 的 歌词 “music is my airplane”， 看 同义词 扩展 如 何人 处理 它 。 现 在 有 一 个 
简单 的 文本 分 析 管 道 ， 它 由 一 个 分 词 帮 组 成 ,每 遇 到 一 个 空 日 ， 它 就 创建 一 个 词素 ,进而 为 句子 
中 的 每 个 单词 都 创建 了 一 个 词素 。 因 此 ， 索 引 时 文本 分 析 管 道 会 创建 这 些 词 素 。 之 后 ,利用 词素 
过 滤器 进行 同义词 扩展 : 每 收 到 一 个 词素 ， 就 查找 同义词 词汇 表 ,， 并 且 判 断 是 否 存 在 与 这 些 词素 
文本 相同 的 关键 词 (例如 “aeroplane” “boat “car”) “music is my airplane” 这 个 片段 的 记录 列 
表 如 表 2-1 所 示 〈 以 字母 升序 排列 )。 


表 2-1 “music is my aeroplane” 的 记录 列表 片段 





























词 项 文档 (位置) 
aeroplane 人 
aircraft (12, 17) 
airplane 四 本 区 人 
1S 1(6, 8) 
music 0 二 
my 1(9, 11) 
plane 2 














这 个 记录 列表 同时 也 记录 了 一 个 文档 中 每 个 词 项 出 现 的 位 置信 息 。 这 个 位 置信 息 让 你 看 到 
“plane”“airplane”“aircraft” 这 几 个 原始 文本 片段 里 没有 的 词 ， 作 为 原始 词 项 “aeroplane” 的 附 
属 信息 加 入 了 索引 ， 并 与 后 者 放 在 同一 个 位 置 。 

我 们 可 以 将 词 项 的 位 置 记录 在 倒 排 索引 中 ,以 便 重 构 词 项 在 文档 文本 中 出 现 的 顺序 。 如 采 你 
查看 倒 排 索 引 表 并 选择 在 升序 排列 中 位 置 较 靠 下 的 词 项 , 则 会 得 到 “music is my aeroplane/aircraft/ 
airplane/plane” 这 个 结果 。 由 于 同义词 可 以 彼此 无 颖 替换 ， 因 此 ， 在 索引 中 可 以 设想 有 4 段 不 同 
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的 文本 :“music is my aeroplane”“music is my aircraft” “music is my airplane” 和 “music is my 
plane”。 和 需要 强调 的 是 ， 尺 管 你 找到 了 对 句子 进行 索引 和 搜索 的 四 种 不 同 的 形式 ,但 是 如 采 其 中 
任何 一 种 形式 与 用 户 的 查询 匹配 , 则 搜索 引擎 将 只 返回 一 个 文档 , 因为 它们 都 引用 了 记录 列表 中 
的 文档 1。 

在 了 解 了 将 同义词 索引 到 搜索 引 敬 中 的 方法 后 ， 现 在 我 们 可 以 决 试 构建 第 一 个 基于 Apache 
Lucene 的 索引 歌词 的 搜索 引擎 ， 并 且 在 索引 时 使 用 同义词 扩展 来 建立 正确 的 文本 分 析 。 
































说 明 接 下 来 ， 我 将 交替 使 用 Lucene 和 Apache Lucene 这 两 个 名 字 ; 但 是 ， 正 确 的 商标 名 称 是 


Apache Lucene。 


1. 快速 了 解 Apache Lucene 
在 深入 人 研究 同义词 扩展 之 前 ， 本 方 将 简要 介绍 Lucene。 这 将 让 你 更 多 地 关注 概念 ， 而 不 是 
Lucene API 和 实现 细节 。 











获取 Apache Lucene 

在 Apache Lucene 官网 里 可 以 下 载 最 新 版 的 Apache Lucene。 你 可 以 下 载 二 进 制 包 ( .tgz 
或 .zip ) 或 源 代码 发 行 版 。 如 果 你 只 是 想 在 自己 的 项 目 中 使 用 Lucene， 那 么 推荐 使 用 二 进 制 发 
行 版 。.tgz 或 .zip 包 包 含 Lucene 组 件 的 JAR 文件 。Lucene 由 各 种 组 件 构 成 : 唯一 的 必 备 组 件 
是 lucene-core， 其 他 组 件 是 可 选 的 ， 可 按 需 使 用 。Lucene 的 官方 文档 中 介绍 了 相关 的 基础 
知识 。 源 代码 包 适 合 布 望 查 看 代码 或 增强 代码 的 开发 人 员 。 如 果 使 用 Maven、Ant 或 Gradle 
之 类 的 构建 工具 ， 你 也 可 以 在 项 目 中 包含 Lucene， 因 为 其 所 有 组 件 都 在 Maven Central 这 样 的 
公共 存储 库 中 发 布 了 。 





Apache Lucene 是 一 个 用 Java 编写 的 开源 搜索 库 , 采用 Apache License 2 授权 。 在 Lucene 中 ， 
索引 和 搜索 的 主要 实体 用 Document 表示 ,根据 具体 的 使 用 情况 , Document 可 以 表示 任何 东西 ， 
如 一 页 文字 、 一 本 书 、 一 幅 图 像 等 。 但 不 管 表 示 什 么 内 容 ， 所 得 到 的 搜索 结果 都 是 Document。 
一 个 Document 由 许多 字段 构成 ， 这 些 字 段 可 用 于 提取 Document 中 的 不 同 部 分 。 例 如 ， 如 果 
文档 是 一 个 网 员 ， 那 么 可 以 把 页 面 标 题 、 页 面 内 容 、 页 面 大 小 、 创 建 时 间 等 看 成 不 同 的 字段 。 需 
要 字段 的 主要 原因 是 ， 它 有 助 于 完成 以 下 任务 : 

口 配置 每 一 个 字段 的 分 析 管 道 ; 

口 配置 索引 选项 ， 例 如 在 记录 列表 中 存储 词 项 位 置 还 是 每 个 词 项 指 回 的 原始 文本 的 值 。 

Lucene 搜索 引擎 可 以 通过 一 个 Directory 访问 ， 这 是 一 个 文件 列表 ， 其 中 保存 了 倒 排 索引 
(以 及 其 他 满足 记录 位 置 等 用 途 的 数据 结构 )。 通 过 打开 IndexReader， 可 以 读 取 Directory 
上 倒 排 索引 的 视图 。 
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文件 系统 中 存储 倒 


排 索引 的 目标 路 径 
Path path = Paths.get("/home/lucene/luceneidx"); 





Directory directory = FSDirectory.openl(path);} < 、、 
通过 IndexReader 
Fa 去 己 | 圳 的 口 
IndexReader reader = DirectoryReader.open (directory),; A 
a 匡 人 优良 
打开 目标 路 径 
上 的 目录 








使 用 IndexReader 可 以 获取 索引 的 有 用 统计 信息 ,例如 当前 索引 的 文档 数量 , 或 是 否 有 文 
档 已 经 遭 到 删除 ; 它 也 可 以 用 于 获取 某 一 个 字段 或 是 特定 词 项 的 统计 数据 。 此 外 ， 如 果 知 道 要 检 
索 的 文档 的 标识 (identifier )， 那 么 可 以 直接 从 IndexReader 获取 Document。 


int identifier = 123;， 
Document document = reader.document (identifier).; 





要 进行 搜索 ， 就 需要 使 用 IndqexReader ， 因 为 它 让 你 能 该 取 有 索引。 因此 ， 你 需要 一 个 
IndexReader 来 创建 一 个 IndexSearcher。IndexSearcher 是 执行 搜索 和 收集 结果 的 入 口 点 
通过 IndexSearcher 执行 的 查询 在 索引 数据 上 运行 ,查询 结果 由 IndexReader 公开 。 

无 须 通过 编程 对 查询 进行 过 多 编码 ， 就 可 以 使 用 oueryParser (查询 解析 带 ) 运行 用 户 输 
入 的 查询 ,搜索 时 需要 指定 ( 搜索 时 ) 文 本 分 析 。, 在 Lucene 中 ,文本 分 析 任 务 是 通过 实现 Analyzer 
API 来 执行 的 。Analyzer 可 由 一 个 Tokenizer (分 记 此 ) 和 一 个 TokenFilter ( 词 北 过 滤 需 ， 
可 选 ) 组 件 构成 ， 或 者 也 可 以 使 用 开 箱 即 用 的 实现 ， 如 下 例 所 示 。 











使 用 WhitespaceAnalyzer( 空白 分 析 器 ) 


OQueryParser parser = new QueryParser ("title", 为 标题 字段 创建 查询 解析 器 
人 ~ 二 上 | 


new WhitespaceAnalyzer()); 
Query dquery = parser.parse("+Deep +search").; 解析 用 户 输入 的 查询 并 


获得 一 个 Lucene Query 
在 本 例 中 ， 当 查询 解析 融 在 名 为 title 的 字段 上 运行 查询 时 ， 它 过 上 空 日 束 拆 分 词素 。 假 
设 用 户 在 查询 中 输入 “+Deeptsearch”， 你 需要 将 其 传递 给 oueryParser 并 获取 Lucene 查询 对 
象 。 之 后 你 就 可 以 运行 查询 了 。 
在 IndexSearcher 上 执行 
ndexyoearcener Seareher Ss mew Jhndexoearchnerlreaderyy 查询 ， 并 返回 前 10 个 文档 


TopDocs hits = searcher.search (gquery, 10); 














(CoreDocs Lencethy TF 于 一 - 季 历 伟 衬 








ScoreDoc scoreDoc = hits.scoreDocs[1]; 
-人 = 中 
Document doc = reader.document (SCoreDoc .doc ) ; 检索 “9 P00 并 返 
回 文档 标识 及 其 分 数 
System.out .println(doc.get ("title") + " : " (来 自 底层 检索 模型 ) 
+ SCOoreDoc.score); 
) 输出 返回 文档 的 获取 文档 ， 你 可 以 用 该 
标题 字段 的 值 文档 的 1D 查看 文档 字段 





运行 上 述 代码 将 无 法 得 到 任何 结 琳 ， 因 为 还 没有 索引 任何 内 容 。 接 下 来 ,我们 将 人 处理 这 个 问 





创建 文 
档 实例 
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题 ， 并 试 一 试 如 何 利 用 Lucene 索引 Document。 首 先 ， 我 们 需要 决定 将 哪些 字段 放 进 文档 ， 以 
及 它们 的 (检索 时 ) 文本 分 析 管 道 应 该 是 怎样 的 。 在 此 以 图 书 为 例 。 假设 我 们 希望 将 一 本 书 内 容 
中 的 无 用 单词 删除 ， 同 时 将 一 个 不 删除 任何 内 容 的 更 简单 的 文本 分 析 管 道 用 于 标题 。 

基于 Lucene 的 搜索 引擎 , 其 倒 排 索引 是 由 Indexwriter 在 磁盘 上 的 一 个 Directory 中 写 
和 的， 该 Indqexwriter 将 根据 IndexWriterConfig 持久 化 文档 。 这 个 IndexWriterConfig 
的 配置 包含 很 多 选项 ， 但 对 我 们 来 说 ， 最 重要 的 一 点 是 要 配置 索引 时 分 析 融 ， 如 代码 清单 2-1 所 
示 。 这 样 一 日 IndexWriter 就 结 ， 就 可 以 创建 Document 并 添加 字段 ， 如 代码 清单 2-2 所 示 。 


代码 清单 2-1 创建 单字 段 分 析 带 


值 是 用 于 字段 分 析 的 分 析 器 


Map<String, Analyzer> perFieldAnalyzers = new HashMap<>(); 中 进行 删除 














CharArraySet stopWords = new CharArraySet (Arrays 
.asList("a", "an", "the"), true); 了 一 一 一 一 一 一 一 一 | 为 页 面 字 段 使 用 指定 停 





用 词 的 StopAnalyzer 
perFieldAnalyzers.put ("pages", new StopAnalyzer\ 








(停止 分 析 器 ) 
stopWords));} 
perFieldAnalyzers.put ("titlje", new WhitespaceAnalyzer () ) ; 
对 标题 字段 使 用 
Analyzer analyzer = new PerFieldAnalyzerWrapper\( WhitespaceAnalyzer 


new EnglishAnalyzer(), perFieldAnalyzers);} 
创建 一 个 单字 段 分 析 器 ， 它 也 需要 一 个 默认 分 析 
器 (本 例 中 为 英语 分 析 器 )， 以 备 其 他 需要 添加 
到 Document 中 的 字段 使 用 


代码 清单 2-2 将 文档 加 入 Lucene 索引 





创建 一 个 IndexWriter, 并 根据 IndexWriterConfig 
为 索引 创建 一 个 配置 将 Document 写 入 一 个 Directory 


IndexWriterConfig config = new IndexWriterConfig(analyzer); 








IndexWriter writer = new IndexWriter (directory, 
config); 
:天 . 人 :i 
Document dl4s = new Document (); 洪 加 Re 0 都 有 
dl4s.add (new TextField("title", "DL for search", 名 称 、 值 以 及 一 个 选项 以 存储 
EleldN. SLOPe. YES) 词 项 的 值 


dl4s.add (new TextField("page", "Living in the information age ..." 
Field.Store.YES)); 


7 


Document rs = new Document ( ) ; 
rs.add (new TextField("title", "Relevant Searcnhn"，PFlield.Store .YES) ) ，; 
rs.add(new TextField("page", "Getting a search engine to behave ...", 


Field.Store.YES)); 


writer.addDocument (dl4s); < 一 将 文档 加 入 搜索 引擎 
writer.addDocument (rs):; 
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将 少量 文档 加 入 Indexwriter 后 ， 可 以 通过 commit 将 它们 保存 在 文档 系统 中 。 和 否则 ， 在 
新 的 IndexReader 中 无 法 看 到 新 增 的 文档 。 


writer.commit(); < 一 提交 更 改 


writer.close(); < 一 关闭 Indexwriter (释放 资源 ) 


再 次 运行 搜索 代码 ， 结 果 如 下 。 2 


Deep learning for search : 0.040937614 


针对 查询 “+Deeptsearch”， 代 码 找 到 匹配 项 ， 并 打印 其 标题 和 分 数 。 
介绍 完 Lucene， 现 在 回 到 同义词 扩展 这 个 主题 。 











2. 用 同义词 扩展 设置 Lucene 索引 

首先 ， 定义 用 于 索引 时 和 搜索 时 的 文本 分 析 算 法 。 然 后 ,将 一 些 歌 词 添加 到 倒 排 索引 中 。 在 
许多 情况 下 , 在 索引 时 和 搜索 时 最 好 使 用 相同 的 分 词 关 ,因为 这 样 一 来 ,文本 是 根据 相同 的 算法 
切 分 的 ， 查 询 更 容易 匹配 到 文档 片段 。 我 们 将 从 简单 的 开始 ， 先 设置 以 下 内 容 : 

口 一 个 搜索 时 分 析 融 〈 Analyzer )， 当 遇 到 空白 字符 [| 也 称 为 空白 分 词 器 (whitespace 

tokenizer ) | 时 ， 它 使 用 分 词 硕 切 分 词素 ; 

口 一 个 索引 时 分 析 右 ， 它 使 用 空白 分 词 带 以 及 同义词 过 滤 妖 。 

这 样 设置 的 原因 是 , 我 们 并 不 需要 同时 在 查询 时 和 索引 时 对 同义词 进行 扩展 。 要 对 两 个 同 义 
词 进行 匹配 ， 只 需 扩 展 一 次 即 可 。 

假设 有 两 个 同义词 需要 进行 匹配 ， 它 们 是 “aeroplane” 和 “plane”。 下 面 的 代码 清单 将 构建 
一 个 文本 分 析 链 ， 它 可 以 从 原始 词素 中 提取 一 个 词 项 (例如 “plane”),， 并 为 其 同义词 生成 男 一 个 
词 项 (例如 “aeroplane”)， 也 就 是 会 生成 一 个 原 词 项 和 一 个 新 词 项 ， 如 代码 清单 2-3 所 示 。 


代码 清单 2-3 ”配置 同义词 扩展 


SynonymMap .Builder builder = new SymnonymMapbp .Bullder() :; 


builder.add (new CharsRef ("aeroplane"), new CharsRef ("plane"), true),; 
final SynonymMap map = builder.build(); 以 编程 方式 
定义 同义词 


Analyzer indexTimeAnalyzer = new Analyzer() { 
QOverride x 
为 索引 创建 一 个 
protected TokenStreamComponents createComponents (人 rs 
， ， 定制 的 Analyzer 
String fieldName) { 


Tokenizer tokenizer = new WhitespaceTokenizer (); 

SynonymGraphFilter synFilter = new 
SynonymGraphrFilter (tokenizer, map, true);} 

return new TokenStreamComponents (tokenizer, synFfilter); 


} 















































创建 同义词 过 滤器 ， 
该 过 滤器 从 空白 分 词 


攻 器 接收 词 项 ， 并 根据 

该 词 项 的 映射 词 扩展 

Analyzer searchTimeAnalyzer = new WhitespaceAnalyzer(); 同义词 ， 忽 略 大 小 写 
搜索 时 的 空白 分 析 串 














这 个 稍 化 了 的 例子 创建 了 一 个 只 有 一 个 条 目的 同义词 词汇 表 。 通 笛 ， 词 汇 表 中 有 更 多 条 目 ， 
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或 者 你 也 可 以 从 外 部 文件 中 读 取 条 目 ， 这 样 就 不 必 为 每 个 同义词 编号 代码 。 

现在 ,我 们 已 经 准备 好 了 ， 可 以 使 用 ijndexTimeAnalyzer (索引 时 分 析 器 ) 将 一 些 歌词 放 
入 索引 中 。 在 此 之 前 ， 先 来 看 看 歌词 的 组 织 结构 。 每 首 歌 都 有 作者 、 标 题 、 发 行 年 份 、 歌 词 文本 
等 。 正 如 前 文 所 示 ， 对 将 要 索引 的 数据 进行 检查 非 党 重要， 这样 可 以 了 解 拥有 什么 类 型 的 数据 ， 
并 且 还 可 能 基于 此 想 出 一 个 非常 适合 这 些 数据 的 文本 分 析 链 。 下 面 给 出 一 个 例子 。 

author: Red Hot Chili Peppers 

title: Aeroplane 

year: 1995 


album: One Hot Minute 
text: I like pleasure spiked with pain and music is my aeroplane ... 


你 能 在 搜索 引擎 中 跟踪 这 样 的 结构 吗 ?” 这样 做 有 用 吗 ? 

在 大 多 数 情况 下 ， 保 持 轻 量 级 文档 结构 会 非常 方便 ， 因 为 它 的 每 个 部 分 都 传递 不 同 的 语义 ， 
在 搜索 时 能 够 满足 不 同 的 需求 。 例 如 , 年份 是 一 个 数值 ， 对 它 使 用 空 日 分 词 带 没有 任何 意义 ， 
为 该 字段 中 不 太 可 能 出 现 空 日 ,对 于 所 有 其 他 字段 ,你 可 以 使 用 前 面 定 义 的 Analyzer 进行 索引 。 
组 痰 后 ， 你 将 得 到 多 个 倒 排 索引 ( 每 个 属性 一 个 )， 可 以 用 来 对 文档 的 不 同 部 分 进行 索引 ， 它 们 
都 在 同一 个 搜索 引擎 中 ， 如 图 2-3 所 示 。 















































author: Red Hot Chil Peppers 
title: Aeroplane 


year: 1995 
album: One Hot Minute 
text: ... 


IndexWriter 






图 2-3 根据 数据 类 型 切 分 文档 





使 用 Lucene, 可 以 为 示例 中 的 每 个 属性 Te en i year、 album.、 text ) 定义 一 
个 字段 。 我 们 为 yeadar (年 份 ) 这 个 字段 设置 一 个 单独 的 Analyzer, 这 个 分 析 需 不 处 理 该 字段 
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的 值 ; 而 对 其 他 所 有 值 使 用 前 面 定 义 的 indexTimeAnalyzer， 并 启用 同义词 扩展 ， 如 代码 清单 
2-4 所 示 。 


代码 清单 2-4 ”为 索引 和 搜索 分 离 分 析 链 


Directory directory = FSDirectory.open(Paths.getl( | 为 索引 打开 一 个 目录 
"/path/to/index")); 


Map<String, Analyzer> perFieldAnalyzers = 创建 一 个 映射 ， 其 键 是 
new HashMap<>(); 0 及 所 使 用 
分 析 链 中 对 应 的 值 


perFieldAnalyzers.put(" a 


new KeywordAnalyzer ( 
Analyzer analyzZer = new i te 为 年 份 这 个 字段 设置 不 
indexTimeAnalyzer, perFieldAnalyzers) 同 的 分 析 器 〈 关 键 词 ; 
不 处 理 值 ) 


IndexWriterConfig config = new IndexWriterConfig!l( 








analy2er);) < 创建 一 个 包装 起 分 析 器 ， 
IndexWriter writer = new IndexWriter\( Es 分 析 
directory, config).; 在 配置 对 象 中 构建 
创建 用 于 索引 的 上 述 所 有 内 容 
IndexWriter 


这 种 机 制 使 得 索引 在 将 内 容 写 入 倒 排 索引 之 前 , 可 以 灵活 地 分 析 内 容 。 要 为 数据 语料库 找到 
最 佳 组 合 , 通常 要 对 Document 的 不 同 部 分 使 用 不 同 的 Analyzer, 并 进行 几 次 更 换 。 即便 如 此 ， 
在 现实 世界 中 ， 随 着 时 间 的 推移 ， 这 种 配置 也 可 能 需要 调整 。 例 如 ， 一 开始 你 只 索引 英文 歌曲 ， 
但 是 稍 后 你 开始 添加 中 文 歌曲 。 这 种 情况 下 ， 你 必须 调整 分 析 右 ,使 之 能 同时 处 理 两 种 语言 ( 例 
如 你 不 能 期 望 空白 分 词 器 在 中 文 、 日 文 和 韩文 上 很 好 地 工作 ， 因 为 在 这 文 些 语言 中 , 单词 之 间 往 往 
没有 空格 )。 
将 你 的 第 一 个 文档 放 入 Lucene 索引 中 ， 如 代码 清单 2-5 所 示 。 


代码 清单 2-5 ”索引 文档 



































| 建 一 个 

为 歌曲 Aeroplane 创建 一 个 文档 从 歌词 中 添加 
Document aeroplaneDoc = new Document ( ) ; 所 有 字段 
aeroplaneDoc.add (new Field("title", "Aeroplane", type)); 
aeroplaneDoc.add (new Field("author", "Red Hot Chili Peppers", type)); 
aeroplaneDoc.add (new Fieldl("year", "1995", type)); 
aeroplaneDoc.add (new Field("album", "One Hot Minute", type)); 
aeroplaneDoc.add (new Field("text", 

"I like pleasure spiked with pain and music is my aeroplane ...", type)); 

writer.addDocument (aeroplaneDoc); < 一 添加 文档 


writer.commit (); 将 更 新 后 的 倒 排 索引 保 
存 到 文件 系统 ， 使 更 改 
持久 化 〈 且 可 搜索 ) 
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创建 一 个 由 多 个 字段 组 成 的 文档 ， 此 歌曲 的 每 个 属性 部 是 一 个 字段 ， 然 后 将 其 添 加 到 





WIiter, 


为 了 进行 搜索 ,( 再 次 ) 打开 Directory 并 获得 索引 上 的 视图 ， 即 IndexReader， 你 可 以 
在 该 视图 上 通过 IndexSearcher 进行 搜索 。 要 确保 同义词 扩展 工作 正常 ， 请 输入 一 个 带 有 单词 
“plane” 的 查询 ， 如 有 果 工 作 正 第 ， 那 么 歌曲 4eroplane 将 被 检索 到 。 请 看 代码 清单 2-6。 





代码 清单 2-6 ”搜索 单词 “plane” 
IndexReader reader = DirectoryReader.open (directory),; 在 索引 上 打开 
一 个 视图 








IndexSearcher searcher = new IndexSearcher (reader).， 
实例 化 一 个 搜索 器 


OueryParser parser = new QueryParser ("text", 


searchTimeAnalyzer);} < 一 一 一 一 一 一 





创建 一 个 查询 解析 器 ， 它 使 用 搜 
索 时 分 析 器 和 用 户 输入 的 查询 生 





—— > Query query = parser.parse ("plane"),; 





z 成 搜索 项 
TopDocs hits = searcher.search (query, 10); 
使 用 gueryParser 将 用 户 输入 的 查询 (作为 搜索 ， 并 获得 
字符 串 ) 转换 为 合适 的 Lucene 查询 对 象 前 10 个 结果 
for (int i = 0; i < hits.scoreDocs.length; i++) { < 遍历 结果 
ScoreDoc scoreDoc = hits.scoreDocsl[1i]; 
Document doc = searcher.doc (scoreDoc.doc); < 得 到 搜索 结果 
System.out .printlin(doc.get ("title") + " by " 
+ doc.get ("author")); 输出 返回 歌曲 
的 标题 和 作者 


不 出 所 料 ， 结 果 如 下 。 
Aeroplane by Red Hot Chili Peppers 
我 们 已 经 快速 浏览 了 为 索引 和 搜索 配置 文本 分 析 的 方法 ,以 及 索引 和 检索 文档 的 方法 , 还 学 
习 了 如 何 添加 同义词 扩展 功能 。 但 是 , 需要 明确 的 是 ， 这 段 代 码 在 现实 生活 中 无 法 得 到 维护 ， 原 
因 如 下 : 
口 你 不 能 为 要 添加 的 每 个 同义词 都 编写 代码 ; 
口 你 需要 一 个 可 以 单独 插入 和 管理 的 同义词 词汇 表 ， 以 避免 在 每 次 更 新 它 时 都 修改 搜索 程序 ; 
口 你 需要 处理 语言 的 演变 问题 一 一 不 断 添加 新 单词 ( 和 新 同义词 )。 
解决 这 些 问题 的 第 一 步 是 将 同义词 写 和 文件 ， 并 让 同义词 过 滤器 从 这 个 文件 中 读 取 同义词 ， 
如 代码 清单 2.7 所 示 。 要 实现 这 一 点 ， 我 们 可 以 将 同义词 放 在 同一 行 ， 并 用 去 号 分 隔 。 通 过 使 用 
建造 者 ( builder ) 模式 ， 你 可 以 用 更 紧凑 的 方式 构建 analyzer。 



































代码 清单 2-7 从 文件 中 提供 同义词 


a \\ 今后 
Map<String, String> sffargs = new HashMap<>(); 定义 包含 同 
义 词 的 文件 


sffargs.put ("synonyms", "synonyms .txt").; 
sffargs.put ("ignoreCase", "true"); 


分 析 器 
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定义 一 个 Cu on builder = 人 让 分 析 器 使 用 
.WithTokenizer (WhitespaceTokenizerFactory.class) < 空白 分 词 器 
.addTokemnP1LTter (SymnonymGrapbphF1L1TtLerFactory.C1Lass，Sstfardgs ) 有 
return builder.build(); pb 
让 分 析 器 使 用 
同义词 过 滤器 
在 同义词 文件 中 配置 同义词 。 
plane,aeroplane,aircraft,airplane 
boat,vessel,ship 
这 样 , 无 论 同义词 文件 中 有 什么 变化 , 代码 都 将 保持 不 变 ， 而 且 我 们 可 以 根据 需要 随时 更 新 














文件 。 尽管 这 比 为 同义词 编写 代码 要 好 得 多 , 但 是 除非 知道 只 有 少量 的 固定 同义词 ,否则 我 们 还 
是 和 希望 避 倪 手动 编写 同义词 文件 。 所 华 现 在 有 很 多 免费 的 或 非常 便宜 的 数据 可 供 使 用 。 对 目 然 十 
言 处 理 而 育 ，WordNet 项 目 是 一 个 很 好 的 大 型 资源 。 它 是 来 自 普 林 斯 顿 大 学 的 一 个 英语 词汇 数据 
库 , 我 们 可 以 利用 它 不 断 更 新 的 大 型 同义词 词汇 表 , 将 其 作为 文件 ( 例如 命名 为 synonyms-wn.txt ) 
下 载 并 在 程序 中 指明 使 用 WordNet 格 式 ， 从 而 将 其 导入 索引 分 析 管 道 ， 如 代码 清单 2-8 所 示 。 


代码 清单 2-8 使 用 来 目 WordNet 的 同义词 




















Map<String, String> sffargs = new HashMap<>(); 用 oroN el 语汇 表 
sffargs.put ("synonyms", "synonyms-wn.txt").,; 创建 同义词 文件 


sffargs.put ("format", "wordnet").; 
CustomAnalyzer.Builder builder = CustomAnalyzer.builder() 指定 同义词 文件 为 
.WithTokenizer (WhitespaceTokenizerFactory.class) WordNet 格式 
口 


.addTokenFilter(SynonymGraphrFilterrFactory.class, sffargs) 
return builder.build(),; 


WordNet 字 典 的 加 入 让 你 拥有 了 一 个 非常 强大 的 高 质量 同义词 扩展 资源 , 这 对 英语 的 同义词 
扩展 很 有 帮助 。 但 是 它 也 存在 一 些 问 题 。 首 先 ， 并 非 每 种 语言 都 有 WordNet 类 型 的 资源 。 其 次 ， 
即使 你 只 使 用 英语 , 其 同义词 的 扩展 也 只 是 基于 英语 语法 和 词典 规则 所 定义 的 字面 意义 ， 而 没有 
考虑 到 这 些 词 在 不 同 语 境 下 的 隐 含 意义 。 

此 处 描述 的 是 语言 学 家 根据 严格 的 词典 定义 (字面 意义 ) 定义 的 同义词 与 现实 生活 中 由 和 并 用 
的 语言 和 词汇 ( 隐 含 意义 ) 所 定义 的 同义词 之 间 的 区 别 。 在 社交 网 络 、 聊 天 室 和 现实 中 的 朋友 聚 
会 等 非 正 式 场合 中 ， 人 们 可 能 会 把 某 两 个 词 当 作 同 义 词 来 使 用 ， 而 根据 霹 法 规则 , 它们 又 不 是 同 
义 词 。 为 了 处 理 这 个 问题 ， 本 章 将 引入 word2vec， 比 起 仅仅 基于 严格 的 语法 扩展 同义词 ， 它 能 
提供 更 高 级 的 功能 。 我 们 将 看 到 ， 使 用 word2vec 可 以 构建 与 语言 无 关 的 同义词 扩展 : 它 可 以 从 
数据 中 学 习 哪 些 单词 是 相似 的 ， 而 不 太 注 重 语言 本 身 以 及 其 用 于 正式 场合 还 是 非 正 式 场合 。 
word2vec 的 一 个 有 用 的 特性 是 , 在 相似 语 境 下 意思 相同 的 单词 之 所 以 被 认为 是 相似 的 , 完全 是 因 
为 它们 的 语 境 相似 ,而 与 语法 或 句法 无 关 。word2vec 假设 出 现在 相似 语 境 中 的 单词 语义 相近 , 在 
这 个 前 提 下 ， 针 对 每 个 单词 ，word2vec 都 会 查看 其 邻近 的 单词 。 
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2.2 ” 语 境 的 重要 性 


概括 地 说 ， 到 目前 为 止 ， 当 前 方法 的 主要 问题 在 于 ,同义词 映射 是 前 态 的， 并且 不 与 索引 数 
据 绑 定 。 例 如 , 在 WordNet 的 例子 中 ,同义词 严格 草 守 瑞 语 语法 的 声 义 ,不 考虑 倡 语 或 非 正 式 场 
合 下 的 语 境 ,但 是 在 这 些 非 正式 场合 下 ， 某 些 单词 在 严格 的 声 法 规则 中 不 是 同义词 ,也 经 销 作 为 
同义词 使 用 。 另 一 个 例子 是 聊天 消息 和 电子 邮件 中 使 用 的 缩 略 词 。 例 如 ， 在 电子 邮件 中 ICYMI 
(“in case you missed it”， 为 了 防止 你 没 注 意 到 ) 和 AKA (“also known as” 也 称 为 ) 这 样 的 缩写 
并 不 罕见 。ICYMI 和 “in case you missed it” 不 能 称 为 同义词 ， 因 为 你 在 字典 里 找 不 到 它们 ,但 
是 它们 的 意思 是 一 样 的 。 

克服 这 些 限制 的 一 种 方法 是 找到 一 种 途径 ， 从 摄 入 的 数据 生成 同义词 。 其 基本 概念 是 , 通过 
查看 上 下 文 来 提取 单词 的 最 近邻 〈( nearest neighbor ) 应 该 是 可 行 的 。 这 意味 着 要 将 该 单词 周围 的 
词语 与 这 个 单词 本 身 一 同 进行 分 析 。 在 这 种 情况 下 ， 与 这 个 单词 的 最 近邻 就 是 它 的 同义词 ， 即 使 
从 语法 的 角度 来 看 它 并 不 是 严格 意义 上 的 同义词 。 

在 相同 的 上 下 文中 使 用 和 出 现 的 单词 往往 具有 相似 的 含义 ， 这 种 想法 被 称 为 分 布 假设 
( distributional hypothesis )， 它 是 许多 文本 表示 的 闪 度 学 习 算 法 的 基础 。 这 个 想法 有 趣 的 地 方 在 于 它 
忽略 了 语言 、 倡 语 、 文 体 和 语法 , 关于 单词 的 所 有 信息 都 是 从 文本 中 单词 出 现 的 语 境 里 推断 出 来 的 。 
例如 ， 想 想 代 表 城 市 (Rome、Cape Town、Oakland 等 ) 的 单词 是 如 何 经 常 使 用 的 。 请 看 几 个 句子 。 


DQ Tlike to live mn Rome because... 







































































口 People who love surfing should go to Cape Town because... 

DQ I would like to visit Oakland to see... 

DQ Traffic 1s crazy In Rome... 

通常 ， 城 市 名 称 在 “in” 附 近 使 用 , 或 者 与 “live”( 居住 )、“visit”( 参观 , 访问 ) 等 动词 相 
距 较 近 。 这 是 一 种 基本 判断 ， 它 基于 一 项 事实 ， 即 语 境 提供 了 关于 每 个 单词 的 大 量 信息 。 

记 住 这 一 点 ， 如果 你 希望 从 要 索引 的 数据 中 学 习 单 词 的 表示 , 那么 你 就 可 以 从 数据 中 生成 同 
义 词 ， 而 不 是 手动 构建 或 下 载 同义词 词汇 表 。 在 第 1 半 关 于 图 书馆 的 例子 中 ,我 提 到 最 好 了 解 一 
下 图 书馆 里 有 什么 ， 因 为 有 了 这 些 视 外 的 了 解 ,图 书 管理 员 就 可 以 更 有 效 地 帮助 你 。 比 如 , 来 到 
图 书馆 的 学 生 可 以 请 图 书 管 理 员 玫 忙 查 找 “ 关 于 人 工 知 能 的 书 "。 我 们 假设 图 书馆 只 有 一 本 关于 
这 个 主题 的 书 ， 叫 47_.Pripceipais。 如 果 图 书 管理 员 (或 者 学 生 ) 搜索 书 名 ， 他们 束 会 错过 这 本 书 ， 
除非 他 们 知道 AI 是 人 工 智能 (artificial intelligence ) 的 首 字 母 缩 略 词 (根据 之 前 的 假设 ， 它 们 是 
同义词 )。 在 这 种 情况 下 ， 一 位 烈 悉 这 些 同义词 的 助手 会 很 有 帮助 。 

让 我 们 假设 有 两 类 这 样 的 助手 : 约 鞭 ， 一 位 人 研究 天 语 语 法 和 人 句法 多 年 的 类 语 语 言 专 家 ; 还 有 
罗 比 ， 为 一 个 学 生 ， 他 每 周 部 和 图 书 管理 员 合作 ， 并且 有 机 会 读 大 部 分 的 书 。 约 袁 不 能 告诉 你 Ai 
代表 人 工 智 能 ， 因 为 他 的 背景 知识 没有 提供 ; 虽然 罗 比 的 英语 知识 远 没 有 那么 正式 ， 但 他 是 图 书 
馆藏 书 方面 的 专家 ， 可 以 很 容易 地 告诉 你 AI 代表 人 工 智 能 ， 因 为 他 该 过 47 Principals 这 本 书 ， 知 
道 它 是 天 于 人 工 智 能 原理 的 。 在 这 个 场景 中 ， 约 萌 的 行为 类似 于 WordNet 词汇 表 ， 而 罗 比 类 似 于 
word2vec 算法 。 虽 然 约翰 已 经 证 明了 他 的 语言 知识 ， 但 罗 比 在 这 种 特殊 情况 下 可 能 更 有 帮助 。 
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第 1 章 提 到 过 神经 网 络 擅长 学 习 对 语 境 敏感 的 表示 (在 本 例 中 是 单词 的 表示 )。 这 就 是 我 们 
将 在 word2vec 中 使 用 的 功能 。 介 而 言 之 ,我 们 将 使 用 word2vec 神经 网 络 来 学 习 表示 “plane” 的 
单词 ， 它 将 告诉 我 们 与 “plane” 最 相似 的 单词 是 “aeroplane”。 在 我 们 深入 人 研究 这 个 问题 之 前 ， 
先 仔 细 看 一 看 最 简单 的 神经 网 络 形式 之 一 : 前 馈 神 经 网 络 。 前 馈 神经 网 络 是 大 多 数 更 复杂 的 神经 


网 络 结构 的 基础 。 2 


2.3” 表 馈 神经 网 络 


神经 网 络 是 神经 搜索 的 关键 工具 , 许多 神经 网 络 结构 是 从 前 馈 网 络 扩展 而 来 的 。 前 馈 神经 网 
络 ( feed-forward neural network ) 是 神经 网 络 中 的 一 种 ,信息 从 输入 层 流 癌 隐藏 层 ( 如果 有 )， 最 
后 流向 输出 层 , 这 里 没有 循环 ， 因 为 神经 元 之 间 的 连接 不 会 形成 一 个 循环 。 请 把 它 想象 成 一 个 具 
有 输入 和 输出 的 盒 。 由 于 神经 元 相互 连接 的 方式 以 及 它们 对 输入 的 反应 的 原因 ,因此 魔法 大 多 发 
生 在 神经 网 络 内 部 。 例 如 ， 如 果 想 在 某 个 国家 买 一 套房 子 ， 你 可 以 用 这 个 “魔法 盒 ” 来 预测 某 套 
房子 的 合理 价格 。 如 图 2-4 所 示 ， 魔 法 盒 将 学 习 用 输入 的 特性 ， 如 房屋 大 小 、 位 置 和 卖方 给 出 的 
评级 ， 来 进行 预测 。 





























第 2 层 
(隐藏 层 ) 


第 3 层 
(输出 层 ) 


SS 
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图 2-4 利用 前 馈 神 经 网 络 进 行 房价 预测 ， 该 神经 网 络 具 有 3 个 输入 、5 个 隐藏 单元 以 
及 1 个 输出 单元 


前 馈 神 经 网 络 由 以 下 部 分 组 成 。 

D 一 个 输入 层 一 一 它 人 负责 收集 用 户 的 输入 。 这 些 输 入 通常 以 实数 的 形式 出 现 。 在 预测 房价 的 
例子 中 ,你 有 3 个 输入 : 房子 的 大 小 、 房 子 的 位 置 和 卖方 需要 的 金额 。 你 将 这 些 输入 编码 
为 3 个 实数 ， 因 此 传递 给 网 络 的 输入 将 是 一 个 三 维 回 量 : [size，1location,， | 
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口 一 个 或 多 个 隐藏 层 〈 可 选 ) 一 一 它 表示 网 络 中 更 神秘 的 部 分 。 它 可 以 被 看 作 让 这 个 网 络 
如 此 善于 学 习 和 预测 的 部 分 。 在 本 例 中 ， 隐 藏 层 中 有 5 个 和 单元， 它们 都 连接 到 输入 层 单 
元 和 输出 层 单元 。 网 络 中 的 连通 性 是 网 络 动 态 活 动 的 基础 。 在 大 多 数 情况 下 , 一 层 (第 x 
层 ) 中 的 所 有 单元 都 与 下 一 层 (第 x+tl1 层 ) 中 的 单元 完全 连接 ( 向 前 连接 )。 

口 一 个 输出 层 一 一 负责 提供 网 络 的 最 终 输 出 。 在 房价 的 例子 中 ,， 它 将 提供 一 个 真实 的 数字 ， 
表示 网 络 估计 的 正确 价格 应 该 是 多 少 。 




















说 明 通常 ， 最 好 对 输入 层 进 行 缩放 处 理 ， 以 使 它们 或 多 或 少 在 相同 的 值 范 围 内 一 一 例如 ， 在 -1 和 
1 之 间 。 在 这 个 例子 中 ,一 座 房 子 的 面积 (平方 米 ) 在 10 和 200 之 间 ， 而 它 的 价格 却 在 数 万 
美元 左右 。 对 输入 数据 进行 预 处 理 , 使 其 都 在 相似 的 值 范围 内 ,可 以 使 网 络 能 够 更 快 地 学 习 。 


2.3.1 ”前 馈 神 经 网 络 如 何 工 作 : 权重 和 激活 函数 


正如 你 所 看 到 的 , 前 馈 神经 网 络 接 收 输 入 并 产生 输出 。 这 些 网 络 的 基本 组 成 部 分 称 为 神经 元 
(neuron， 尽 管 大 脑 的 神经 元 要 复杂 得 多 )。 前 馈 神 经 网 络 中 的 每 个 神经 元 都 具备 如 下 特点 : 

口 属于 一 个 图 层 ; 

口 根据 输入 的 权重 平滑 每 个 输入 ; 

口 根 据 激活 函数 传播 其 输出 。 

在 图 2-5 中 的 前 馈 神 经 网 络 中 ， 第 2 层 仅 由 一 个 神经 元 组 成 。 该 神经 元 接收 来 目 第 1 层 的 3 
个 神经 元 的 输入 ， 并 将 输出 只 传播 到 第 3 层 的 一 个 神经 元 。 它 有 一 个 关联 的 激活 函数 ， 它 前 一 层 
的 传 入 链 路 具有 关联 的 权重 ( 通常 是 -1 和 1 之 间 的 实数 )。 














图 2-5 通过 网 络 传 播 信 号 


假设 第 2 层 神 经 元 的 所 有 传人 权重 都 设置 为 0.3， 它 从 第 一 层 接收 输入 0.4、0.5 和 0.6。 
个 权重 乘 以 它 的 输入 ,结果 相 加 : 0.3 x 0.4+0.3 x 0.5+0.3 x 0.6=0.45。 激活 函数 应 用 于 这 个 中 间 
结果 ,人 然后 传播 到 神经 元 的 输出 链 路 。 和 常用 的 激活 函数 有 双 曲 正切 (tanh )、sigmoigd 和 修正 线 
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性 单元 (ReLU )。 

在 当前 示例 中 ， 我 们 使 用 双 曲 正切 函数 。 由 于 tanh(0.45)=0.4218990053， 因 此 第 3 层 
神经 元 将 接收 这 个 数字 作为 唯一 传人 其 链 路 的 输入 。 输出 神经 元 将 使 用 它 自己 的 权重 执行 与 第 2 
层 神经 元 相同 的 步 又。 因此 ， 这 些 网 络 被 称 为 前 馈 神 经 网 络 : 每 个 神经 元 转换 和 传播 它 的 输入 ， 
并 传 向 下 一 层 神 经 元 。 


2.3.2 ” 简 述 反 回 传播 


第 1 章 曾 经 提 到 , 神经 网 络 和 深度 学 习 属 于 机 器 学 习 领 域 , 并 介绍 了 用 于 训练 神经 网 络 的 主 
要 算法 : 反问 传播 。 本 市 将 对 其 进行 更 深入 的 人 研究 。 

在 讨论 深度 学 习 的 兴起 时 , 有 一 个 基本 点 一 一 它 与 神经 网 络 学 习 的 好 坏 和 速度 有 关 。 虽然 人 
工 神 经 网 络 是 一 种 古老 的 计算 范式 (大约 出 现在 1950 年 ), 但 随 着 现代 计算 机 的 性 能 提高 到 允许 
神经 网 络 在 合理 的 时 间 内 进行 有 效 学 习 的 水 平 ， 它 们 最 近 ( 大 约 在 2011 年 ) 再 次 流行 起 来 。 

2.3.1 市 介绍 了 网 络 如 何以 前 馈 方式 将 信息 从 输入 层 传播 到 输出 层 。 此 外 ， 经 过 前 人 馈 传递 后 ， 
反问 传播 允许 信号 从 输出 层 癌 后 流 到 输入 层 。 

输出 层 神 经 元 的 激活 值 (由 前 馈 传 递 到 输出 层 的 输入 经 激活 函数 计算 得 出 ) 与 输出 期 望 值 进 
行 比 较 。 这 种 比较 由 代价 函数 ( cost function ) 执行 ， 该 函数 计算 损失 或 成 本 ,代表 了 在 特定 情况 
下 神经 网 络 计 算 误差 的 程度 。 这 样 的 误差 沿 着 输出 神经 元 传人 连接 的 方向 ， 有 反问 发 送 到 隐藏 层 中 
相应 的 单元 。 从 图 2-6 中 可 以 看 出 ,输出 层 中 的 神经 元 将 其 部 分 误差 发 送 回 隐藏 层 中 连接 的 单元 。 


第 3 层 
(隐藏 层 ) 
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图 2-6 将 信号 从 输出 层 反问 传播 到 隐藏 层 
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某 个 单元 一 旦 接收 到 误差 ， 就 根据 更 新 算法 (update algorithm ) 更 新 权重 ,通常 使 用 的 算法 
是 随机 梯度 下 降 算 法 〈stochastic gradient descent )。 这 个 权重 的 反 回 更 新 将 持续 传播 ， 直 到 输入 
层 连 接 上 的 权重 得 到 调整 〈 注 意 ， 更 新 只 针对 输出 和 隐藏 层 单元 ， 因 为 输入 单元 没有 权重 )。 
此 ,进行 反问 传播 将 更 新 与 现 有 连接 关联 的 所 有 权重 。 该 算法 背后 的 原理 是 ,每 个 权重 都 要 对 部 
分 误差 负责 ， 因 此 ， 反 回 传 播 和 尝试 调整 这 些 权 重 ， 以 减少 特定 输入 -输出 对 的 误差 。 

梯度 下 降 算法 (或 用 于 调整 权重 的 任何 其 他 更 新 算法 ) 根据 每 一 项 权重 造成 的 误差 所 占 的 比 
例 来 决定 如 何 改 变 权 重 。 这 个 概念 涉及 很 多 数学 知识 , 但 是 你 可 以 将 它 看 作 代 价 也 数 定义 了 一 个 
形状 ， 如 图 2-7 所 示 “。 在 这 个 形状 中 ， 突 起 的 高 度 定 义 了 误差 大 小 。 一 个 非常 低 的 点 对 应 误差 
非常 小 的 神经 网 络 权 重 的 组 合 : 

口 低 误 差点 一 一 误差 最 低 的 点 ， 具 有 神经 网 络 的 最 优 权重 ; 

口 高 误差 点 一 一 误差 很 高 的 点 ， 以 梯度 下 降 的 方式 尝试 下 降 至 低 误 差点 。 

一 个 点 的 坐标 是 由 神经 网 络 中 的 权重 给 出 的 , 因此 梯度 下 降 法 试图 在 图 中 找到 一 个 误差 很 小 
的 权重 (或 高 度 很 低 的 点 )。 

















| | | 
| | 
| 一 | 一 


图 2-7 梯度 下 降 反 回 传 播 的 几何 释义 


2.4 使 用 word2vec 


在 了 解 了 一 般 的 前 馈 网 络 是 什么 之 后 , 我 们 就 可 以 专注 于 一 个 更 具体 的 基于 前 馈 神 经 网 络 的 
神经 网 络 算法 : word2vec。 尺 管 它 的 基础 相对 容易 理解 ,但 当 看 到 使 用 它 能 取得 一 些 成 绩 时 (就 
捕获 文本 中 单词 的 语义 而 言 )， 你 就 会 外 吸 引 住 。 那 么 ， 它 做 了 什么 ， 它 对 同义词 扩展 这 种 应 用 
有 什么 作用 ? 











(本 书 部 分 插图 的 彩色 电子 图 片 ， 请 扫描 封底 二 维 码 获 取 。 一 一 编者 注 
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word2vec 会 获取 一 段 文 本 并 输出 一 系列 癌 量 ， 而 每 个 回 量 对 应 文本 中 的 一 个 单词 。 将 word2vec 
输出 的 向 量 绘制 在 二 维 图 像 上 时 ,语义 非常 相似 的 向 量 之 间距 离 非常 近 。 用 距离 度量 ， 比 如 余 苞 
距离 ， 就 可 以 找到 与 给 定单 词 最 相似 的 单词 。 因 此 ,我 们 可 以 使 用 此 技术 查找 单词 的 同义词 。 简 
而 言 之 ， 在 本 节 中 ， 我 们 将 建立 一 个 word2vec 模型 ， 向 它 提供 想 要 索引 的 歌词 文本 ， 从 而 得 到 
每 个 单词 的 输出 回 量 ， 并 使 用 它们 查找 同义词 。 

第 1 章 讨 论 了 辐 量 空间 模型 和 TF-IDF 模型 中 向量 在 搜索 时 的 应 用 。 从 某 种 意义 上 说 ,word2vec 
也 生成 了 一 个 向 量 空间 模型 ， 其 向 量 ( 每 个 单词 一 个 向 量 ) 在 学 习 过 程 中 由 神经 网 络 加 权 。 由 
word2vec 之 类 的 算法 生成 的 词 问 量 通常 被 称 为 词 散 入 ( word embedding )， 因 为 它们 将 静态 、 离 散 、 
高 维 的 单词 表示 ( 如 TF-IDF 或 一 位 有 效 编 码 ) 映射 到 男 一 个 (连续 的 ) 维 数 更 少 的 癌 量 空间 中 。 

回 到 4eroplane 这 首 歌 的 例子 。 如 果 把 它 的 文本 输入 word2vec， 就 会 得 到 每 个 单词 的 癌 量 ， 
如 下 所 示 。 


0.7976110753441061, -1.300175666666296，i 
-1.1589942649711316,，,， 0.2550385962680938， like 
-1.9136814615251492, 0.0, pleasure 
-0.178102361461314, -5.778459658617458,， spiked 
0.11344064895365787, 0.0, with 
0.3778008406249243, -0.11222894354254397，, pain 
-2.0494382050792344, 0.5871714329463343， and 
-1.3652666102221962, -0.4866885862322685, music 
-12.878251690899361,， 0.7094618209959707， is 
0.8220355668636578,， -1.2088098678855501, my 
-0.37314503461270637,， 0.4801501371764839,， aeroplane 






































你 可 以 在 图 2-8 所 示 的 坐标 平面 中 看 到 这 些 。 


“aeroplane— 





——music 
| spiked 


pain 
my 








图 2-8 ”Aeroplane 歌词 的 词 癌 量 


由 于 在 示例 输出 中 使 用 了 两 个 维度 ， 因 此 这 些 回 量 更 容易 在 图 上 绘 出 。 但 在 实践 中 , 通 第 会 
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有 100 个 或 更 多 的 维 数 ， 因 此 需要 使 用 降 维 算法 ， 如 主 成 分 分 析 ( Principal Component Analysis ) 
或 上 SNE (分 布 式 随 机 邻 域 徐 人 )， 来 获得 更 容易 绘制 的 二 维 疝 量 或 三 维 向 量 ( 随 春 数据 量 的 增 
长 ， 使 用 多 个 维度 可 以 捕获 更 多 信息 )。 现 在 本 章 不 会 详细 讨论 这 种 调 优 ， 但是， 在 介绍 了 更 多 
天 于 神经 网 络 的 知识 后 ， 本 书 的 后 面部 分 会 回 过 头 来 讨论 它 。 

利用 余弦 相似 度 来 测量 每 个 生成 向 量 之 间 的 距离 ， 得 到 了 一 些 有 趣 的 结果 ， 如 下 所 示 。 

muslc -> Song, view 

looking -> view, better 


in -> the, like 
sitting -> turning, could 

















如 上 所 示 ， 随 机 选取 几 个 回 量 ， 再 提取 两 个 离 它 们 最 近 的 回 量 。 这 样 得 到 的 结果 有 些 很 好 ， 
有 些 则 不 太 好 。 

口 “music” 与 “song” 在 语义 上 非常 接近 ， 你 甚至 可 以 说 它们 是 同义词 。 但 是 对 “view” 
来 说 不 是 这 样 。 

口 “looking” 和 “view” 是 相关 的 ， 但 是 “better” 和 “looking” 没 有 关系 。 

口 “In”“the”“like” 这 三 个 词 并 不 相近 。 

口 “sitting” 和 “turning” 都 是 ing 形式 的 动词 ,但 它们 的 语义 是 低 看 合 的 。“could” 也 是 一 
个 动词 ， 但 是 它 和 “sitting” 没 有 什么 关系 。 

怎么 回 事 ? 是 word2vec 不 能 胜任 这 个 任务 吗 ? 这 里 有 两 个 因素 在 起 作用 。 

口 生成 的 词 回 量 的 维 数 (二 维 ) 可 能 太 低 了 。 

口 为 word2vec 模型 输入 一 首 歌 的 歌词 文本 ， 可 能 无 法 为 每 一 个 单词 提供 足够 的 上 下 文 来 生 

成 准确 的 表示 。 模 型 需要 更 多 包含 “better” 和 “view” 的 上 下 文 示例 。 

假设 再 次 构建 了 一 个 word2vec 模型 ， 这 次 使 用 100 个 维度 并 扩大 歌词 的 量 ， 这 些 歌词 来 目 
Billboard Hot 100 数据 集 。 结 果 如 下 。 

We 一 > >On sing 

VleEW -> VlilS1ONS, QazZe 

sitting -> hanging, lying 

in -> with, into 

looking -> lookin, lustin 

结果 要 好 得 多 ， 也 更 合适 : 它们 在 搜索 中 可 以 全 部 作为 同义词 使 用 。 想 象 一 下 ， 如果 在 查询 
或 索引 时 使 用 这 种 技术 , 那么 将 不 再 需要 对 字典 和 词汇 表 进 行 更 新 , 因为 搜索 引擎 可 以 从 它 处 理 
的 数据 中 学 习 生 成 同义词 。 

你 现在 可 能 有 几 个 问题 。word2vec 是 如 何 工 作 的 ?在 实践 中 , 如 何 将 其 集成 到 搜索 引擎 中 ? 
Tomas Mikolov 等 人 的 文 草 “Efficient Estimation of Word Representations in Vector Space” 描 述 了 
学 习 这 种 单词 表示 的 两 种 神经 网 络 模型 : CBOW ( continuous-bag-of-words ) 和 continuous 
skip-gram。 本 书 稍 后 将 讨论 这 两 种 方法 ， 以 及 它们 的 实现 方法 。word2vec 以 无 监督 学 习 的 方式 
学 习 单 词 表 示 。 上 述 的 CBOW 模型 和 skip-gram 模型 只 需要 输入 足够 大 、 格 式 正确 的 文本 即 可 运 
行 。word2vec 痛 后 的 主要 概念 是 回 神 经 网 络 提 供 一 段 文本 , 该 文本 被 切 分 成 一 定 大 小 (也 称 为 窗 
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口 ) 的 厂 段 。 每 个 片段 都 以 目标 词 、 上 下 文 这 样 成 对 的 形式 提供 给 网 络 。 在 图 2-9 中 ， 目 标 词 是 
“aeroplane”， 上 下 文 由 单词 “music”“is” 和 “my” 组 成 。 


| like music spiked with pain and music is my aeroplane ... 


| like music spiked ( 隐 城 层 ) 
like music spiked with 和 
music spiked with pain 和 S 
spiked with pain and 
with pain and music 2 
和 人 







国 3 (输入 层 ) 和 滨 
人 

music is my aeroplane EE 人 ~ 
ea 2 
aeroplane p02 


图 2-9 向 word2vec ( skip-gram 模型 ) 输入 文本 片段 


网 络 的 隐藏 层 为 每 个 单词 包含 一 组 权重 ( 在 本 例 中 为 11 个 权重 , 即 隐 含 层 中 的 神经 元 数量 )。 
当 学 习 结 束 时 ， 这 些 回 量 将 用 于 单词 表示 。 

关于 word2vec 的 一 个 重要 注意 事项 是 ， 你 不 必 太 关心 神经 网 络 的 输出 ; 相反 ， 在 训练 阶段 
结束 时 ， 你 需要 提取 隐藏 层 的 内 部 状态 ， 这 将 为 每 个 单词 精确 生成 一 个 回 量 表示 。 

在 训练 过 程 中 , 每 个 片段 会 有 一 部 分 用 作 目 标 词 ,而 其 余部 分 则 用 作 上 下 文 。 在 使 用 CBOW 
模型 时 , 目标 词 用 作 网 络 的 输出 , 而 文本 片段 上下文 ) 的 剩余 单词 用 作 输入 。continuous skip-gram 
模型 的 情况 正好 相反 : 目标 词 用 作 输 入 ， 上 下 文 单 词 用 作 输 出 〈 见 示例 )。 在 实践 中 ， 尽 管 这 两 
种 方法 都 很 有 效 ， 但 通常 首选 使 用 continuous skip-gram， 因 为 它 在 低频 单词 上 效果 稍 好 一 些 。 

例如 ， 给 定 文 本 “she keeps moet et chandon in her pretty cabinet let them eat cake she says”( 来 
日 Queen 乐队 的 歌曲 Killer Oueen ) 以 及 一 个 5 个 单词 的 窗口 , 基于 CBOW 的 word2vec 模型 将 收 到 
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一 个 样本 , 而 每 5 个 单词 组 成 一 个 这 样 的 样本 。 例如 , 对 于 片段 |she|keep|moetletlchangdon|， 
输入 将 由 单词 |she |keeplet|chandon| 组 成 ， 输 出 将 由 单词 moet 组 成 。 

如 图 2-10 所 示 , 神经 网 络 由 输入 层 、 隐 藏 居 和 输出 层 组 成 。 这 种 具有 一 层 隐藏 层 的 神经 网 络 
被 称 为 浅 层 神经 网 络 ， 而 具有 多 个 隐藏 层 的 神经 网 络 称 为 深度 神经 网 络 。 



























输入 层 和 隐藏 层 
权重 之 间 的 线性 组 合 








Q 
i Se 
输入 投影 I 输出 
| 
' 
| | 
she : I 
人 BR | 
4 个 一 位 有 效 softmax . 
编码 的 章 语 四 
编码 的 年 说 1 激活 函数 了 ! 
O | | 
Oo keeps ee I 
| | 
1 I 
1 I 
1 I 
1 
moet | 
! | 
1 oo 
| 
| 
et . , 
| 
| 
' 
| 
chandon | ' 
| 
| 
' , 


Ma mm 


CBOW 
图 2-10 ”continuous-bag-of-words 模型 


隐藏 层 中 的 神经 元 没有 激活 函数 , 它们 只 是 将 权重 和 输入 线性 组 合 ( 将 每 个 输入 乘 以 其 权重 
并 将 所 有 绪 采 相 加 ) 输入 层 的 神经 元 个 数 等 于 文本 中 每 个 单词 的 单词 个 数 ，word2vec 有 要求 每 个 
单词 都 表示 为 一 个 一 位 有 效 编码 ( one-hot-encoded ) "向量 。 

先 简要 介绍 一 下 一 位 有 效 编码 向 量 。 假 设 有 一 个 包含 三 个 单词 的 数据 集 [cat ,dog,mouse] ， 
又 有 三 个 向 量 ， 其 中 一 个 值 设 为 1 ( 它 标 识 一 个 特定 的 单词 )， 另 外 两 个 值 都 设 为 0。 














dog 00s 1 
cat :OE 
mouse : [1,0,0] 





如 琳 将 单词 “lion” 添 加 到 数据 集中 ， 该 数据 集 的 一 位 有 效 编 码 丫 量 的 维 数 为 4。 


GD one-hot-encoded 也 常 被 译 为 独 热 编码 。 一 一 译 者 注 


2.4 使 用 word2vec 51 


lion 
dog 
Cat 
moOouSe : 


如 果 输 入 文本 中 有 100 个 单词 ， 每 个 单词 都 将 表示 为 一 个 100 维 回 量 , 那么 在 CBOW 模型 中 ， 
你 将 得 到 100 个 输入 神经 元 乘 以 窗口 参数 减 1 的 值 。 如 果 窗 口 为 4， 就 会 有 300 个 输入 神经 元 。 

隐藏 层 神经 元 数量 等 于 期 望 的 结果 词 向 量 维 数 。 这 个 参数 必须 由 设置 网 络 的 人 设置 。 

输出 层 的 大 小 等 于 输入 文本 中 的 单词 数目 ， 在 本 例 中 为 100。 一 个 word2vec CBOW 模型 ， 
如 果 包 含 100 个 单词 ， 人 能 入 维度 为 50, 窗口 设置 为 4, 它 将 有 300 个 输入 神经 元 、50 个 隐藏 神经 
元 和 100 个 输出 神经 元 。 注 意 , 虽然 输入 和 输出 维度 取决 于 词汇 表 的 大 小 (在 本 例 中 为 100 ) 和 
窗口 参数 ， 但 是 CBOW 模型 生成 的 词 艇 入 的 维度 是 一 个 参数 ， 由 用 户 选 择 。 例 如 ， 在 图 2-11 中 
可 以 看 到 如 下 内 容 。 

口 输入 层 维 数 为 cxv， 其 中 c 为 上 下 文 长 度 〈 等 于 窗口 参数 减 1 )，V 为 词汇 量 大 小 。 

口 隐藏 层 的 维 数 为 N， 由 用 户 定义 。 

口 输出 层 的 维 数 等 于 v。 
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图 2-11 continuous-bag-of-words 模型 权重 
对 于 word2vec， 在 CBOW 模型 中 ， 输 入 的 一 位 有 效 编码 问 量 首先 乘 以 其 隐藏 层 与 输出 层 间 
的 权重 ， 然 后 通过 网 络 进行 传播 , 可 以 把 它 想象 成 一 个 和 矩阵， 其 中 包含 每 个 输入 和 隐藏 神经 元 之 
间 连 接 的 权重 。 它 们 与 隐藏 层 到 输出 层 的 权重 组 合 〈 相 乘 )， 产 生 输出 ， 然 后 这 些 输出 通过 一 个 
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softmax 图 数 传递 。softmax 函数 将 任意 实数 值 的 天 维 问 量 〈 输 出 向 量 ) “压缩 ”为 (0,1) 范 围 
内 的 天 维 实数 信 回 量 , 并 使 它们 的 和 为 1, 这 样 它 们 就 可 以 表示 概率 分 布 。 这 样 网 络 就 可 以 给 出 ， 
在 给 定 上 下 文 〈 网 络 输入 ) 的 情况 下 ， 每 个 输出 单词 将 被 选中 的 概率 。 

现在 ， 你 有 了 一 个 神经 网 络 ,， 在 给 定 几 个 〈 数 量 就 是 窗口 参数 的 大 小 ) 单词 的 情况 下 ， 它 可 
以 预测 文本 中 最 可 能 出 现 的 单词 。 这 个 神经 网 络 可 以 告诉 你 ,在 “Ilike eating” 这 样 的 请 境 下 ， 
下 一 个 单词 应 该 是 “pizza” 这 一 类 的 单词 。 注 意 , 因为 单词 顺序 没有 被 考虑 在 内 , 所 以 也 可 以 说 ， 
对 于 给 定 文本 “I eating pizza”， 下 一 个 最 有 可 能 出 现在 文本 中 的 单词 是 “like”。 

但 是 , 对 于 生成 同义词 的 目标 来 说 , 这 个 神经 网 络 最 重要 的 部 分 不 是 在 给 定 上 下 文 时 学 习 预 
测 单词 。 这 种 方法 的 令 人 司 艳 之 处 在 于 ,在 网 络 内 部 ， 隐 藏 层 的 权重 进行 了 调整 ， 从 而 使 该 方法 
能 够 确定 两 个 单词 在 语义 上 何 时 相似 (因为 它们 出 现在 相同 或 相似 的 上 下 文中 )。 

前 回 传 播 后 , 反问 传播 学 习 算 法 对 不 同 层次 神经 元 的 权重 进行 调整 ,使 神经 网 络 对 每 个 新 的 
片段 产生 更 准确 的 结果 。 学 习 过 程 结 束 时 ， 隐 藏 层 到 输出 层 的 权重 表示 文本 中 每 个 单词 的 回 量 表 
示 《〈 般 入 )。 

相 比 于 CBOW 模型 ，skip-gram 模型 看 起 来 是 相反 的 。 两 者 背后 的 概念 是 一 样 的 : 输入 问 量 
是 一 位 有 效 编 码 ( 每 个 单词 有 一 个 编码 ), 因此 输入 层 神经 元 的 数量 等 于 输入 文本 中 的 单词 数量 。 
隐藏 层 维 数 是 期 望 的 结果 词 癌 量 数量 ， 而 输出 层 的 神经 元 数目 等 于 单词 的 数量 乘 以 窗口 减 1。 继 
续 使 用 相同 的 例子 。 给 定 文 本 “she keeps moet et chandon in her pretty cabinet let them eat cake she 
says” 和 和 一 个 窗口 值 5， 基 于 skip-gram 模型 的 word2vec 模型 将 收 到 第 一 个 样本 ， 这 个 样本 是 
1she |keeps|lmoetlet|1， 输入 是 moet ， 输 出 是 |she|keeps|et|chandon|， 如 图 2-12 所 示 。 
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图 2-12 ”skip-gram 模型 


2.4 使 用 word2vec 53 








图 2-13 是 word2vec 为 Hot 100 Billboard 数据 集中 的 文本 计算 出 的 词 癌 量 的 示例 摘录 。 因 为 
只 是 为 了 理解 单词 语义 的 几何 表示 ， 所 以 它 只 展示 了 所 绘制 单词 的 一 小 部 分 。 
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图 2-13 Hot 100 Billboard 数据 集 的 word2vec 向 量 


注意 “me” 和 “my” 相 对 于 “you” 和 “your” 之 间 的 预期 规律 。 还 要 注意 相似 的 单词 组 ， 
或 在 相似 语 境 中 使 用 的 单词 ， 这 些 都 是 很 好 的 同义词 候选 词 。 

既然 你 已 经 了 解 了 word2vec 算法 的 工作 原理 ， 那 么 让 我 们 编写 一 些 代 码 进 行 实战 。 然 后 ， 
你 将 能 使 其 与 搜索 引擎 结合 ， 完 成 同义词 扩展 。 





Deeplearning4j 
Deeplearning4j (DL4J ) 是 一 个 基于 Java 虚拟 机 (JVM ) 的 深度 学 习 库 。 它 在 Java 用 户 中 
使 用 率 较 高 ， 且 对 于 早期 使 用 者 来 说 ， 它 的 学 习 曲 线 并 不 太 陡 。 它 采用 Apache 2 许可 ， 这 方 
便 了 你 在 公司 内 部 使 用 它 ， 并 将 其 包含 在 可 能 的 非 开 源 产品 中 。 此 外 ，DL4J 有 工具 可 以 导入 
其 他 框架 (如 Keras、Caffe、TensorFlow、Theano 等 ) 创建 的 模型 


2.4.1 在 Deeplearning4j 中 设置 word2vec 


本 书 将 使 用 DL4J 实现 基于 神经 网 络 的 算法 。 请 看 如 何 使 用 DL4J 来 建立 一 个 word2vec 模型 。 

DL4J 基于 skip-gram 模型 ， 提 供 了 word2vec 的 开 箱 即 用 (out-of-the-box ) 实现 。 我们 需要 设 
置 它 的 配置 参数 ， 并 回 搜 索引 擎 提供 输入 文本 。 

记 住 歌词 的 例子 ， 让 我 们 向 word2vec 输入 Hot 100 Billboard 的 文本 文件 ， 如 代码 清单 2-9 所 
示 。 因 为 想 要 输出 一 个 合适 维度 的 词 癌 量 , 所 以 将 该 配置 参数 设置 为 100, 并 将 窗口 大 小 设置 为 5。 
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代码 清单 2-9 ”DL4J word2vec 实例 


读 取 包含 歌词 的 生机 讲 汪 
文本 语料库 设置 夫人 代 名 


String fllePath = new Cl1assPathResoutrce ( 
"billboard jyrics 1964-2015.txt") .getFlle() 
.getAbsolutepath().; 

SentencelIterator iter = 


new BasicLinelIterator (filePpath).; 为 word2vec 创建 
一 个 配置 
Word2Vec vec = new Word2Vec.Builder() 


ee a Se | 设置 向 量 表示 应 有 的 维 数 


.WindowSize(5) 
设置 窗口 .iterate (iter) 本 加 
参数 | .elementsLearningAlgorithm(new CBOW<>()) 设 瘟 word2vec 以 过 历 
(人 所 选 语 料 库 


vec.fit(); ”< 一 一 一 执行 训练 使 用 CBOW 模型 














String[] words = new String[]{"guitar", "love", "rock"}; 
for (String w : words) { 
Collection<Strin lst = vec.wordsNearest (w, 2); FE \ 一 
System.out Ca Words closest to a | 获取 与 输入 单词 
ee 最 接近 的 单词 
下 


“| 打印 最 近 的 单词 


你 将 得 到 以 下 输出 ， 这 似乎 足够 好 了 。 


2 Words closest to 'guitar': [giggle, pianol] 
2 Words closest to 'Jove': [girl, babyl] 
2 Words closest to 'rock': [party, hips] 





注意 ,可 以 通过 更 改 elementsLearningAlgorithm( 元 素 学 习 算 法 ) 来 选择 使 用 skip-gram 
模型 ， 如 代码 清单 2-10 所 示 。 


代码 清单 2-10 ”使 用 skip-gram 模型 

Word2Vec vec = new Word2Vec.Builder() 
.layerSize(...) 
.WindowSize(...) 
.literate(...) 
.elementsLearningAlgorithm(new SkipGram<>()) < 一 使 用 skip-gram 模型 
.build(); 

vec.fit(); 


可 以 看 到 ,建立 这 样 一 个 模型 并 在 合理 的 时 间 内 得 到 结 末 非 沼 人 简单 (在 普通 的 笔记 本 计算 机 
上 训练 word2vec 模型 大 约 需 要 30 秒 )。 请 记 住 ， 你 现在 的 目标 是 将 其 与 搜索 引擎 结合 使 用 ， 以 
产生 一 个 更 好 的 同义词 扩展 算法 。 

















2.4.2 ”基于 word2vec 的 同义词 扩展 


虽然 你 已 经 党 握 了 这 个 强大 的 工具 ， 但 你 需要 小 心 ! 当 你 使 用 WordNet 时 ， 同 义 词 数量 是 有 限 
的 ， 因 此 索引 不 会 变 大 。 用 word2vec 生 成 词 问 量 时 ， 你 可 以 要 求 模型 为 每 个 要 索引 的 单词 返回 最 接 
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近 的 单词 。 从 性 能 的 角度 ( 运行 时 间 和 存储 ) 来 看 ， 这 或 许 是 不 可 接受 的 “， 因 此 你 必须 提出 合理 
使 用 word2vec 的 策略 。 你 可 以 限制 要 用 word2vec 获 取 的 最 接近 的 单词 类 型 。 在 日 然 滞 言 处 理 中 ， 人 
们 通常 会 给 每 个 单词 做 词性 (part of speech，POS ) 标记 ， 以 标 出 单词 在 句子 中 的 角色 。 篆 见 的 词 
性 有 NOUN ( 名词 )、VERB (动词 ) 和 ADJ( 形容词 )， 也 有 更 加 细 化 的 ， 如 NP 和 NC ( 专 有 名 词 和 普 
通 名 词 )。 例如， 你 可 能 决定 仪 对 词性 为 NC 或 VERB 的 单词 使 用 word2vec， 以 避免 形容 词 的 同义词 使 
索引 脱 胀 。 男 一 种 技术 是 查看 文档 的 信息 量 。 短 文本 被 查询 命中 的 概率 相对 较 低 ， 因 为 它 只 由 几 个 
词 项 组 成 。 因 此 ， 你 可 能 决定 关注 这 些 文档 并 扩展 它们 的 同义词 ， 而 不 是 关注 更 长 的 文档 。 

此 外 ,文档 的 “信息 量 ” 并 不 仅仅 取决 于 它 的 大 小 。 因 此 ， 你 可 以 使 用 其 他 技术 ， 例 如 查看 
词 项 权重 ( weight ) (一 个 词 项 在 一 段 文 本 中 出 现 的 次 数 ) 并 跳 过 那些 权重 较 低 的 项 。 

你 也 可 以 选择 只 使 用 那些 具有 良好 相似 度 分 数 的 word2vec 结果 。 如 果 使 用 余弦 距离 度量 词 
癌 量 的 最 近 “ 邻 大 ”， 那 么 有 些 “ 邻 居 ” 可 能 相距 太 远 ( 相似 度 分 数 较 低 )， 但 仍然 是 (所 有 邻居 
里 ) 最 接近 的 。 在 这 种 情况 下 ， 你 可 以 决定 不 使 用 这 些 单词 。 

现在 你 已 经 使 用 Deeplearning4j 在 Hot 100 Billboard 数据 集中 训练 了 一 个 word2vec 模型 ， 请 
将 它 与 搜索 引 苟 结合 使 用 来 生成 同义词 。 正 如 在 第 1 草 中 所 解释 的 , 词素 过 滤 需 在 分 词 硕 提供 的 
词 项 上 执行 操作 ， 例 如 过 滤 它 们 ， 或 者 添加 要 索引 的 其 他 词 项 。Lucene TokenFilter (词素 过 
小 从 ) 是 基于 incrementToken API 的 它 在 词素 流 的 末尾 返回 一 个 值 为 false 的 布尔 (boolean ) 
值 。 这 个 API 每 次 处 理 一 个 词 系 〈 例 如 通过 过 滤 或 扩展 词素 )。 图 2-14 展示 了 基于 word2vec 的 
同义词 扩展 的 工作 原理 。 




























































癌 神经 网 络 
提供 输入 


“aircraft” 











神经 网 络 


与 “aircraft™ 
Word2vec 
图 2-14 搜索 时 使 用 word2vec 进行 同义词 扩展 
你 已 经 完成 了 word2vec 训练 ， 因 此 你 可 以 创建 一 个 同义词 过 滤 右 ， 它 将 在 过 小 期 间 使 用 所 
学 习 的 模型 来 预测 词 项 的 同义词 。 你 将 构建 一 个 Lucene rokenFilter， 它 可 以 在 输入 词素 上 使 


用 DL4J word2vec。 这 意味 看 实现 图 2-14 左 侧 的 步骤 。 
用 于 词 系 过 滤 的 Lucene API 要 求 你 实现 incrementToken 方法 。 这 种 方法 中 ， 如 果 词 素 流 














GD 参见 Tomas Mikolov 等 人 的 文章 “Efficient Estimation of Word Representations in Vector Space”。 
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中 仍然 有 词素 要 处 理 ， 则 返回 true; 如 果 没 有 剩余 的 词素 要 过 滤 ， 则 返回 false。 


其 基 


人 人、 


本 思想 


是 词 系 过 滤 需 将 为 所 有 原始 词素 返回 true， 为 从 word2vec 获得 的 所 有 相关 同义词 返回 false。 


详 见 代码 清单 2-11。 
代码 清单 2-11 基于 word2vec 的 同义词 扩展 过 滤 需 


protected W2VSynonymFilter (ToKkemnSttream input, 
Word2Vec word2Vec) { 


SUupPer( LnpuE)s 创建 一 个 词素 过 滤器 , 它 使 用 一 个 
/ 经 
this.word2Vec = word2Vec; 已 经 训练 好 的 word2vec 模型 
} 
实现 用 于 词素 过 滤 
QOverride 


的 Lucene API 


public boolean incrementToken ( ) 
throws IOException { 


ee 将 缓存 的 同义词 添加 到 词素 
| By 流 参见 下 一 个 代码 清单 ) 


} 


仅 当 词素 不 是 同义词 时 才 扩 展 它 
if (!SynonymFilter.TYPE_ SYNONYM.equalsl( (为 了 避免 在 扩展 中 出 现 循环 ) 


区 
String word = new Strling(termAtt .bpuftfer () ) 


Ben 对 于 每 个 词 项 , 使 用 word2vec 查 
站 定语 蕊 二 SEE 可 list = Word2Vec: | 找 精 度 高 于 minAcc (例如 ，0.35) 
similarWordsInVocabTo (word, minAcc) 的 最 接近 的 单词 
jnt 1 = 0; 
for (String syn : list) { 
we a 记录 词素 流 中 原始 词 项 《而 不 是 
为 每 个 词素 break; 
ww 始 和 结束 位 置 ) 
2 个 同义词 LF (BVH edudle (WOEdTy .1 FA 


CharsRefBuilder charsRefBuilder = new CharsRefBuilder().; 


CharsRef cr = charsRefBuilder.append(syn) .get ();} 
记录 同 义 
启 的 值 State State. a Lanturerate(y: 


outputs.add (new PendingOutput (state, cr)); 








ne a a ds 
} 到 词素 流 中 同义词 

} 

return loutputs.isEmpty() || input.incrementToken();} 


此 代码 思 历 所 有 词 项 ， 当 找到 同义词 时 ， 藉 将 同义词 放 入 挂 起 的 输出 列表 ( output 列表 ) 
中 以 待 扩展 。 0 过 处 理 后 ,这 些 挂 起 的 词 项 被 添加 为 实际 的 同义词 ， 如 代码 清 





单 2-12 所 示 。 
代码 清单 2-12 ”扩展 挂 起 的 同义词 


获取 要 扩展 的 第 一 个 
if (loutputs.isEmpty()) { 挂 起 输出 
PendingOutput output = outputs.remove(0); 


2.5 评价 和 比较 57 








restoreState(output.state); < 一 
termAtt.copyBuffer (output.charsRef.chars, output 检索 原始 词 项 的 
"Nnerseet ottset, Gutput -chnarsmteL tengthy); 状态 ， 包 括 其 文 
typeAtt.setType (SynonymFilter.TYPE SYNONYM).; 本 、 在 文本 流 中 
returntrue; 的 位 置 等 
} 

将 word2vec 给 出 的 、 之 前 将 闻 项 的 类 于 
保存 在 挂 起 的 输出 中 的 词 项 设置 为 同义词 2 
列 为 同义词 文本 


如 2.4.1 节 所 讲 ， 只 有 当 word2vec 输出 结果 的 准确 率 大 于 某 个 羡 值 时 , 才 可 以 把 它 用 作 同 义 
词 。 对 于 经 过 分 词 带 的 每 个 词 项 ， 过 滤 瘟 只 选择 与 给 定 词 项 最 接近 ( 根据 word2vec 的 计算 结 采 ) 
的 2 个 单词 ,其 准确 率 应 至 少 为 0.35( 该 准确 率 并 不 是 很 高 ) 如 有 果 你 将 语句 “Ilike pleasure spiked 
with pain and music is my airplane” 传 递 给 过 滤 需 , 它 会 用 夯 外 2 个 单 可 “airplanes” 和 “aeroplane” 
扩展 单词 “airplane”( 参见 如 图 2-15 所 示 的 扩展 词素 流 的 最 后 一 部 分 )。 


airplane/44-52 
国 is/38-40 [a my/41-43 aeroplane/44-52 
airplanes/44-52 


图 2-15 经 过 word2vec 同义词 扩展 后 的 词素 流 

















2.5 评价 和 比较 


正如 在 第 1 章 中 所 提 到 的 ， 在 查询 扩展 引入 之 前 或 之 后 均 可 以 获取 指标 ， 其 中 包括 精确 率 、 
召回 率 、 查 询 结 果 是 否 为 0 等 。 为 神经 网 络 的 所 有 参数 确定 最 住 配置 集 通 常 也 是 个 好 主意 。 一 般 
的 神经 网 络 有 很 多 参数 可 以 调整 ， 列 举 如 下 : 

口 大 体 的 网 络 架 构 ， 如 使 用 一 个 或 多 个 隐藏 层 ; 

口 在 每 个 层 中 执行 的 转换 ; 

口 每 一 层 神 经 元 的 数量 ; 

口 不 同 层 间 神 经 元 的 连接 ; 

口 网 络 达 到 最 终 状 态 ( 可 能 具有 低 错 误 率 和 高 准确 率 ) 所 读 取 所 有 训练 集 的 次 数 ( 也 称 为 

轮 ，epoch )。 




















G@) epoch， 在 《机 器 学 习 》( 周志 华 ， 见 该 书 5.3 节 ) 和 《深度 学 习 》( 见 该 书 7.8 节 ) 中 译 为 “ 轮 ” 或 “ 轮 数 ”。 在 此 
对 iteration 、batch 、epoch 解释 如 下 : 神经 网 络 在 训练 数据 集 上 跑 一 遍 ， 称 为 一 次 迭代 ( iteration )。 由 于 数据 集 可 
能 比较 大 ， 全 部 跑 一 壳 ( 壕 代 ) 会 比较 慢 ， 因 此 有 时 每 次 只 使 用 数据 集中 的 部 分 样本 ， 这 个 部 分 样本 数目 就 称 为 
batch size。 这 种 情况 下 ， 一 次 迭代 不 一 定 跑 完 所 有 样本 。 由 于 需要 对 不 同 的 神经 网 络 的 训练 效率 进行 比较 ， 而 不 
同 神 经 网 络 可 能 有 不 同 的 batch size， 因 此 直接 比较 迭代 次 数 是 不 合适 的 ， 比 如 样本 总 共 2048 个 ， 神 经 网 络 A 经 
过 24 次 迭代 ， 损 失 已 很 低 ， 神 经 网 络 B 经 过 12 次 迭代 损失 也 同样 很 低 ; 但 A 的 batch size 是 128， 而 B 的 bateh 
size 是 1024。 可 以 看 出 ，A 的 效率 远 高 于 B。 于 是 又 提 出 了 epoch 的 概念 ， 一 个 epoch 指数 据 集 中 的 所 有 样本 都 
跑 过 一 遍 。 上 面 的 例子 中 ，A 经 过 24 次 迭代 , 每 次 128 个 样本 ,A 完成 训练 的 epoch 是 24 x 128/2048=1.5; 同样 ， 
B 的 epoch 是 12 x 1024/2048=6。 也 就 是 说 ，A 经 过 1.5 个 epoch 就 训练 好 了 ，B 需要 经 过 6 个 epoch 才 训练 好 。 

译 者 注 
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这 些 参 数 也 适用 于 其 他 机 需 学 习 技 术 。 对 于 word2vec， 你 可 以 决定 : 

口 生成 的 词 舱 入 的 大 小 ; 

口 用 于 为 无 监督 训练 模型 创建 片段 的 窗口 大 小 ; 

口 使 用 哪 种 架构 ( CBOW 还 是 skip-gram )。 

如 你 所 见 ， 有 许多 可 能 的 参数 设置 可 以 尝试 。 

交叉 验证 (cross validation ) 是 一 种 优化 参数 的 方法 ， 它 还 可 以 确保 机 需 学 习 模 型 在 不 同 于 
训练 用 的 数据 上 有 足够 好 的 表现 。 交 叉 验 证 将 原始 数据 集 分 为 三 个 子 集 : 训练 集 、 验 证 集 和 测试 
集 。 训 练 集 作 为 训练 模型 的 数据 源 。 在 实践 中 , 它 通 常用 于 训练 一 批 具 有 不 同 参 数 设 置 的 独立 模 
型 。 交 叉 验 证 集 用 于 选择 具有 最 佳 性 能 参数 的 模型 。 例 如 ， 可 以 通过 在 交叉 验证 集中 获取 每 一 对 
输入 和 期 望 输出 ， 并 查看 当 给 定 特定 输入 时 ,模型 给 出 的 结果 是 否 与 期 望 输出 相等 或 接近 。 测 试 
集 的 使 用 方法 与 交叉 验证 集 相 同 , 不 同 的 是 , 它 只 在 交叉 验证 集 上 的 测试 模型 所 使 用 。 测 试 集 上 
结果 的 准确 率 可 以 被 认为 是 度量 模型 整体 有 效 性 的 良好 指标 。 


2.6 用 于 生产 系统 时 的 考虑 


本 草 已 经 介绍 了 如 何 用 word2vec 从 要 索引 和 搜索 的 数据 中 生成 同义词 。 大 多 数 现 有 的 生产 
系统 已 经 包含 许多 索引 好 的 文档 。 在 这 种 情况 下 ， 原 始 数据 往往 不 能 访问 ， 因 为 原始 数据 只 在 索 
引 之 前 存在 。 要 为 年 度 排名 前 100 的 歌曲 建立 歌词 搜索 引擎 ， 就 必须 考虑 到 ， 最 流行 歌曲 的 排序 
每 天 、 每 周 、 每 月 和 每 年 都 在 变化 。 这 意味 大 数据 集 将 随 着 时 间 变 化 ， 因 此 ， 如 果 不 将 旧 的 副本 
保存 在 单独 的 存储 中 ， 以 后 就 无 法 为 所 有 索引 文档 ( 歌词 ) 构建 word2vec 模型 。 

解决 这 个 问题 的 方法 是 将 搜索 引擎 作为 主要 数据 源 。 当 你 使 用 DL4J 配置 word2vec 时 , 你 是 
从 单个 文件 中 获取 语句 。 

String filepath = new ClasspathResource("billboard lyrics.txt") .getFilel() 


.getAbsolutepath().; 
SentencelIterator iter = new BasicLineIterator (filepath).; 


假设 有 一 个 不 断 演进 的 系统 ,每 天 、 每 周 或 每 月 从 不 同 的 文件 中 输入 歌词 ， 你 需要 直接 从 搜 
索引 擎 中 提取 句子 。 因 此 ， 你 将 构建 一 个 sentenceIterator (语句 迭代 需 )， 它 从 Lucene 索 
引 中 读 取 存储 值 ， 如 代码 清单 2-13 所 示 。 


代码 清单 2-13 ”word2vec 从 Lucene 索引 中 获取 语句 


public class FieldValuesSentencelIterator implements 


SentenceIterator { ee 
用 于 获取 文档 值 
private final IndexReader reader:; 的 索引 视图 


private final String field; a a 
brivate, Int "Currentid; 一 A 


public FieldValuesSentenceIterator ( 





































































































IndexReader reader, String field) f{ 因为 这 是 一 个 运 代 璐 ， 
this.reader = reader:; 所 以 需要 获取 当前 文 





档 的 标识 符 
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this.field = field; 
thie .currentLIa O03 


} 


QOverride 
public void reset() { 第 一 个 文档 
currentId = 0; ID 总 是 0 
} 
} 
在 歌词 搜索 引 黎 的 例子 中 ， 歌 词 的 文本 被 索引 到 text 字段 中 。 因 此 ， 你 将 从 该 字段 获取 用 
于 训练 word2vec 模型 的 句子 和 单词 ， 如 代码 清单 2-14 所 示 。 


TD : 寺 > 二 
代码 清单 2-14 ” 读 取 Lucene 索引 中 的 句子 
Path path = Paths.get ("/path/to/index"),; 
Directory directory = FSDirectory.open(path); 
IndexReader reader = DirectoryReader.open (directory),; 
SentenceIterator iter = new FieldValuesSentenceIlIterator(reader, "text").; 























设置 好 之 后 ， 将 这 个 新 的 SentenceIterator 传递 给 word2vec 实现 。 


SentencelIterator iter = new FieldValuesSentencelIterator (reader, "text"),; 
Word2Vec vec = new Word2Vec.Builder () 

.layerSize(100) 

.WindowSize(5) 

.iterate (iter) 

Darl 
vec.fit().; 











在 训练 阶段 ，sentenceIterator 将 遍历 string (字符 串 )， 如 代码 清单 2-15 所 示 。 


代码 清单 2-15 “对 于 每 个 文档 ， 将 字段 值 传递 给 word2vec 进行 训练 


QOverride 如 果 当 前 文档 标识 符 不 大 于 索 
public String nextSentence() { | 引 中 包含 的 文档 总 数 , 则 友 代 器 





if (!hasNext()) { 还 有 语句 要 处 理 
return null; 
} 获取 具有 当前 标识 
tryt{ 符 的 文档 (只 获取 
Docunent “document © readerdocUument (current Ley 你 需要 的 字段 ) 


Collections.singleton (field)); 
String sentence = document .getField (fielgd) 


.StringValue(),; 
return preprocessor != null ? preProcessor 以 字符 串 形式 从 当前 Lucene 
.preProcess (sentence) : 文档 中 获取 文本 字段 的 值 








sentence; 

} catch (IOException e) { 返回 语句 ， 如 果 设 置 
throw new RuntimeException(e),; 了 预 处 理 程序 (例如 ， 

删除 不 需要 的 字符 或 
currentId++; 词素 ), 则 对 该 语句 进 

, 为 下 一 次 迭代 行 预 处 理 


递增 文档 ID 
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y 


QOverride 
public boolean hasNext () { 
return currentId < reader.numDocs (); 


| 


这 样 ，word2vec 就 可 以 在 现 有 的 搜索 引擎 上 频繁 地 重新 训练 ,而 不 必 维 护 原始 数据 。 同 义 词 
扩展 过 滤器 可 以 在 搜索 引擎 中 的 数据 更 新 时 保持 最 新 。 


同义词 与 反 义 辣 


假设 你 有 以 下 句子 : “Ilike pizza”“Ihate pizza”“Ilike pasta”“I hate pasta”“Ilove pasta ”和 
“I eat pasta”。 这 是 word2vec 在 现实 生活 中 用 来 学 习 准 确 般 入 的 小 部 分 句子 。 但 你 可 以 清楚 地 看 
到 ， 左 边 的 “IT” 与 右边 的 “pizza”“pasta” 两 个 词 之 间 都 有 动词 。 因 为 word2vec 使 用 相似 的 文 
本 片段 学 习 词 艇 和信， 所 以 你 可 能 会 得 到 “like”“hate”“love” 和 “eat” 等 动词 的 相似 词 癌 量 。 因 
此 word2vec 可 能 会 报告 说 ,“love” 与 “like” 和 “eat” 很 接近 (考虑 到 这 些 句 子 都 与 食物 有 关 ， 
这 还 行 )， 但 它 与 “hate” 也 很 接近 , 但 “hate” 绝 对 不 是 “love” 的 同义词 。 

在 某 些 情况 下 ， 这 个 问题 可 能 并 不 重要 。 假设 某 人 想 出 去 吃饭 ， 并 希望 在 网 上 搜索 到 一 家 不 
错 的 餐馆 ， 因 此 他 在 搜索 引擎 中 编写 “reviews of restaurants people love” 查 询 。 如 果 他 收 到 关于 
“restaurants people hate” 的 评论 ， 那 么 他 就 知道 不 应 该 去 哪里 。 但 这 只 是 一 个 特殊 例子 ， 通常， 
人 们 不 希望 反义词 像 同义词 一 样 得 到 扩展 。 

不 必 担 心 ， 通 第 ， 文 本 中 有 足够 的 信息 告诉 人 们 ， 尽 管 “hate” 和 “love” 出 现在 相似 的 上 
下 文中 ,但 它们 不 是 同义词 。 事实 上 ， 产 生 这 个 问题 是 因为 这 个 语料库 只 由 “Ihate pizza” 或 “I 
like pasta” 这 样 的 句子 组 成 ,通常 ,， “hate” 和 “like” 也 会 出 现在 其 他 上 下 文中 , 这 有 助 于 word2vec 
发 现 它 们 并 不 相似 。 为 了 了 人 解 这 一 点 ， 我 们 来 评价 一 下 与 “nice” 最 接近 的 单词 及 其 相似 度 ， 如 
下 所 示 。 





























String tw = "nice",，; 
Collection<String> wordsNearest = vec.wordsNearest (tw, 3); 
System.out.println(tw + " -> " + wordsNearest);} 


for (String wn : wordsNearest) { 
double similarity = vec.similarity (tw, wn);} 
System.out .printin("sim(" + tw+i+", "+ wn+") : "+ similarity);} 


} 


词 问 量 之 间 的 相似 度 有 助 于 排除 那些 不 够 相似 的 相 邻 单词 。word2vec 在 Hot 100 Billboard 数 
据 集中 运行 的 一 个 示例 表明 , 与 单词 “nice”( 好 ) 最 接近 的 单词 是 “cute”( 绒 )、“unfair” (不 
公平 ) 和 “real”( 真 的 ， 确实 )， 如 下 所 示 。 


nice -> [cute, unfair, reall 
sim(nice,cute) : 0.6139052510261536 
sim(nice,unfair) : 0.5972062945365906 
sim(nice,real) : 0.5814308524131775 
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“cute” 是 同义词 。“unfair” 不 是 反义词 ， 而 是 表达 负面 情绪 的 形容 词 。 这 不 是 一 个 好 结果 ， 
因为 它 与 “nice” 和 “cute” 的 正面 性 形成 了 对 比 。“real” 通 常 也 不 能 表达 与 “nice” 相 同 的 博 义 。 
要 解决 这 个 问题 ， 可 以 过 滤 挥 最 相近 的 单词 中 相似 度 小 于 绝对 值 0.6 的 词 ， 或 者 小 于 最 大 相似 度 
减 0.01 的 词 。 只 要 其 相似 度 大 于 0.6， 就 可 以 认为 最 接近 的 单词 足够 好 。 此 方法 能 够 排除 距离 这 
个 单词 太 远 的 单词 。 在 本 例 中 ,过 滤 抒 相似 度 小 于 最 高 近邻 相似 度 〈0.61 ) 减 0.01 的 单词 ， 就 把 
“unfair” 和 “real” 过 滤 挥 了 (每 个 单词 的 相似 度 都 小 于 0.6 )。 














2 7 总 结 


口 同义词 扩展 是 一 种 很 方便 的 技术 ， 可 以 提高 召回 率 ， 让 搜索 引擎 的 用 户 更 满意 。 

口 常见 的 同义词 扩展 技术 基于 静态 词典 和 词汇 表 ， 这 些 词 典 和 词汇 表 可 能 需要 人 工 维护 ， 
或 者 常 弟 不 太 适 合 于 它们 所 应 用 的 数据 。 

口 前 馈 神经 网 络 是 许多 神经 网 络 结构 的 基础 。 在 前 僻 神 经 网 络 中 ,信息 从 输入 层 流 癌 输出 
层 ， 在 这 两 层 之 间 ， 可 能 有 一 个 或 多 个 隐藏 层 。 

口 word2vec 是 一 种 基于 前 僻 神 经 网 络 的 、 学 习 单 词 的 癌 量 表示 的 算法 ， 用 于 查找 具有 相似 
含义 的 单词 或 出 现在 相似 上 下 文中 的 单词 ， 因 此 将 其 用 于 同义词 扩展 也 是 合理 的 。 

口 对 于 word2vec， 你 既 可 以 使 用 CBOW 架构 ， 也 可 以 使 用 skip-gram 架构 。 在 CBOW 中 ， 
目标 词 作为 网 络 的 输出 ， 文 本 片段 的 其 余 单词 用 作 输 入 。 在 skip-gram 模型 中 ， 目 标 词 用 
作 输 入 ， 上 下 文 单词 用 作 输 出 。 这 两 种 方法 都 很 好 ， 但 通常 首选 skip-gram， 因 为 它 在 出 
现 频率 低 的 单词 上 效果 更 好 。 

口 word2vec 模型 可 以 提供 很 好 的 结果 , 但 在 用 于 生成 同义词 时 , 需要 管理 单词 的 词义 或 词性 。 

口 在 word2vec 中 ， 要 避免 将 反义词 用 作 同 义 词 。 






































EEEEZ3 
将 神经 网 络 用 于 搜索 引擎 





在 了 解 了 搜索 及 深度 学 习 的 基础 知识 后 , 我 们 是 否 能 在 合适 的 地 方 将 神经 网 络 用 于 搜索 引擎 
呢 ? 理论 上 讲 是 可 以 的 , 但 实际 上 并 非 如 此 。 深度 神经 网 络 不 是 万 能 的 , 要 让 这 种 非常 强大 的 技 
术 发 挥 效 用 ， 需 要 非常 意 愤 地 考虑 使 用 的 时 机 和 方法 。 第 3 ~ 6 章 将 研究 现代 搜索 引擎 通 稼 执行 
的 任务 ， 并 强调 了 其 局 限 性 ， 在 一 一 指出 问题 的 同时 ， 也 将 探究 如 何 利用 深度 学 习 来 解决 它们 。 
通过 人 研究 示例 的 输出 , 或 者 使 用 更 严格 的 信息 检索 度量 方法 , 你 还 将 了 解 如 何 更 好 地 完成 搜索 引 
擎 的 任务 。 


























本 章 内 容 

口 扩展 查询 

口 利用 搜索 日 志 来 创建 训练 数据 
口 理解 循环 神经 网 络 

口 利用 循环 神经 网 络 生 成 可 选 查询 








在 早期 (20 世纪 90 年代 末 ) 的 互联 网 及 搜索 引擎 中 ， 人 们 只 搜索 关键 词 。 用 户 可 能 需要 输 
入 “movie Zemeckis future” 来 搜索 由 了 Robert Zemeckis 导演 的 电影 Back to the Future 的 信息 。 
尽管 现在 搜索 引擎 有 所 进步 ， 人 允许 人 们 使 用 目 然 语言 搜索 ， 但 仍 有 许多 用 户 在 搜索 时 依赖 关键 
词 。 对 于 这 些 用 户 而 言 ， 如 果 搜 索引 擎 能 够 根据 他 们 输入 的 关键 词 生成 正确 的 查询 ， 那 将 非常 
有 帮助 。 例 如 , 对 于 “movie Zemeckis future”, 生成 查询 “Back to the Future by Robert Zemeckis”。 
我 们 将 生成 的 查询 称 为 可 选 查询 ( alternative query )， 因 为 它 是 用 户 表 达 的 信息 需求 的 可 选 ( 文 
本 ) 表示 。 

本 和 曹 将 介绍 如 何 回 搜 索引 警 添 加 文本 生成 功能 ,以 便 在 给 定 用 户 查 询 的 情况 下 , 生成 一 些 可 
选 查询 ， 并 使 它们 在 后 台 与 原始 查询 一 起 运行 。 这 样 做 的 目的 是 用 额外 的 方式 表达 查询 ， 以 扩大 
搜索 范围 ， 而 无 顷 用 户 去 考虑 或 输入 蔡 代 方案 。 要 将 文本 生成 功能 添加 到 搜索 引擎 ， 需 要 使 用 一 
个 称 为 循环 神经 网 络 (recurrent neural network，RNN ) 的 强大 架构 。 

循环 神经 网 络 与 第 2 革 中 介绍 的 前 馈 网 络 具 有 相同 的 灵活 性 , 但 前 者 还 能 够 处 理 长 序列 输入 
和 输出 。 

在 学 习 如 何 使 用 循环 神经 网 络 之 前 ， 请 回忆 你 用 前 馈 网络 所 做 的 工作 。 你 将 它们 与 模型 
word2vec 一 起 使 用 ,改进 同义词 扩展 ,以 便 可 以 使 用 一 个 (或 多 个 ) 同义词 来 扩展 查询 。 更 好 的 
同义词 扩展 能 返回 更 多 的 相关 文档 , 这 提高 了 搜索 引擎 的 有 效 性 。word2vec 使 用 专门 设计 的 神经 
网 络 来 生成 单词 的 稠密 回 量 表示 。 正 如 在 同义词 扩展 中 那样 , 可 用 这 些 回 量 来 计算 两 个 单词 的 相 
似 度 , 但 它们 也 可 以 用 作 如 循环 神经 网 络 等 更 复 林 的 神经 网 络 架 构 的 输入 。 这 正 是 本 章 中 你 将 使 
用 它们 的 方式 。 
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说 明 在 实践 中 ， 常 常 根 据 遇 到 的 问题 ， 通 过 配置 神经 元 激活 函数 、 图 层 及 其 连接 来 训练 神经 
网 络 完成 特定 任务 。 本 书 的 其 余部 分 将 介绍 各 种 神经 网 络 架构 ， 每 种 架构 都 能 解决 不 同 
类 型 的 问题 。 例 如 ， 在 计算 机 视觉 领域 ， 网 络 输入 通常 是 图 像 或 视频 ， 一 般 使 用 卷 积 神 
经 网 络 (convolutional neural network，CNN )。 在 卷 积 神经 网 络 中 ， 每 个 层 都 有 一 个 独特 
的 特定 功能 ， 比 如 卷 积 层 、 池 化 层 等 。 同 时 ， 这 些 层 的 聚合 使 你 能 够 构建 一 个 深度 神经 
网 络 ， 其 中 像素 逐渐 被 转换 为 更 抽象 的 东西 ， 例 如 ， 像 素 一 边缘 一 对 旭 ……: 。 第 1 章 简 
要 介绍 了 这 些 内 容 ， 第 8 章 将 进一步 介绍 。 


第 1 章 介 绍 了 用 户 如何 用 各 种 略 有 不 同 的 版 本 表达 同一 个 信息 需求 , 以 及 即使 查询 编写 方式 
的 微小 变化 也 会 影响 首先 返回 哪些 文档 。 因 此 ， 当 训练 神经 网 络 根据 输入 查询 生成 输出 查询 时 ， 
除了 查询 中 的 单词 ,还 应 考虑 其 上 下 文 ,这 样 做 的 日 的 是 让 生成 的 查询 在 语义 上 与 输入 查询 相似 ， 
以 使 搜索 引擎 对 相同 基本 需求 的 不 同 表 达 方 式 返回 搜索 结果 。 你 可 以 使 用 循环 神经 网 络 以 目 然 博 
言 生 成 文本 , 然后 将 生成 的 文本 集成 到 搜索 引 警 中。 本 章 的 其 余部 分 将 介绍 循环 神经 网 络 的 工作 
原理 、 调整 它们 以 生成 可 选 查询 的 方法 , 以 及 循环 神经 网 络 支 撑 的 搜索 引 敬 如何 提升 为 用 户 返 回 
相关 结果 的 效率 。 


3.1 信息 需求 与 查询 : 弥补 磊 距 


第 1 章 讨论 了 一 个 基本 问题 : 用 户 如 何以 最 佳 方式 表达 信息 需求 。 但 作为 用 户 来 说 ,， 真 的 想 
人 花 很 多 时 间 思 考 如 何 对 查询 进行 措辞 吗 ? 想象 在 清晨 乘坐 公共 交通 工具 上 班 的 路 上 用 手机 搜索 
言 县 ， 此 时 人 们 没有 足够 的 时 间或 脑力 〈 太 早 了 1! ) 提出 与 搜索 引擎 互动 的 最 佳 方式 。 

如 果 要 求 用 户 用 三 到 四 个 句子 解释 他 们 需要 的 信息 , 你 可 能 会 得 到 对 具体 需求 的 详细 解释 及 
背景 。 但 是 如 果 要 求 同 一 个 人 在 五 六 个 字 的 简短 查询 中 表达 他 们 想 要 的 内 容 , 则 他 们 很 可 能 无 法 
做 到 这 一 点 ， 因 为 将 详细 需求 压缩 成 简短 的 单词 并 不 总 是 那么 容易 。 作 为 搜索 工程 师 ， 我 们 需要 
采取 措施 来 弥补 用 户 意图 和 结果 查询 之 间 的 这 种 差距 。 


3.1.1 生成 可 选 查询 


一 种 广为人知 的 帮助 用 户 编写 查询 的 技术 是 在 用 户 输 入 查询 时 提供 建议 文本 的 提示 ,这 让 搜 
索引 擎 用 户 界 面 (UI) 可 以 在 用 户 编写 查询 时 引导 用 户 ， 帮 助 用 户 输 入 “好 ”的 查询 (第 4 章 将 
详细 介绍 它 是 如 何 做 到 这 一 点 的 ), 另 一 种 填补 信息 需求 和 用 户 输入 查询 之 间 差 距 的 方法 是 , 在 查 
询 进 入 搜索 引擎 系统 之 后 、 得 到 执行 之 前 对 查询 进行 后 处 理 。 这 种 后 处 理 任务 的 职责 是 用 输入 的 
查询 来 创建 一 个 某 种 程度 上 “更 好 ”的 新 查询 。 当 然 , 在 这 种 情况 下 ,“ 更 好 ”可 能 意味 者 不 同 的 
事物 。 本 曹 重点 介绍 如 何以 各 种 方式 生成 表达 相同 信息 需求 的 查询 ， 以 增加 下 述 情 况 的 可 能 性 : 

口 相关 文档 包含 在 结果 集中 ，; 

口 更 相关 的 文档 在 搜索 结果 中 排序 靠 前 。 

目前 ， 这 通常 是 手动 渐进 完成 的 : 你 可 能 会 发 出 第 一 个 查询 ， 如 “latest research in artificial 
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intelligence”; 然后 是 第 二 个 , 如 “whatis deep learning”; 之 后 是 第 三 个 ,如 ”recurrent neural networks 
for search” 。 在 这 个 例子 中 ,“ 手 动 ” 指 的 是 你 运行 查询 ， 查 看 结果 ， 推 理 ， 编 写 并 运行 另 一 个 查 
询 ， 查 看 结 采 ， 再 推理 …… ， 直 到 你 得 到 正在 寻找 的 信息 或 放弃 。 

我 们 的 目标 是 在 不 与 用 户 进 行 任何 交互 的 情况 下 生成 一 组 可 选 查询 。 这 样 的 查询 应 与 原始 查 
询 具 有 相同 或 相似 的 含义 , 但 使 用 了 不 同 的 措辞 (拼写 仍然 是 正确 的 ) 要 了 解 它 如 何 工 作 ， 就 让 
我 们 回 到 查询 “movie Zemeckis future” 的 示例 。 如 果 输 入 该 短语 ， 搜 索引 苟 应 该 执行 以 下 操作 : 

(1) 接受 用 户 输入 的 查询 “movie Zemeckis future”; 

(2) 通过 查询 时 分 析 链 传递 查询 并 生成 用 户 查 询 的 转换 版 本 一 一 在 这 个 例子 中 ,假设 你 配置 
了 一 个 过 滤 需 ， 将 大 写字 母 转换 为 小 写字 母 ; 

(3) 将 过 小 后 的 查询 “movie zemeckis future” 传 递 给 循环 神经 网 络 并 获取 一 个 或 更 多 个 可 选 
查询 作为 输出 ， 例 如 “Back to the Future by Robert Zemeckis”; 

(4) 将 最 初 过 滤 过 的 查询 和 生成 的 可 选 查询 转换 为 搜索 引 苟 具体 的 实现 形式 (已 解析 的 查询 ); 

(5) 在 倒 排 索引 上 运行 查询 。 

如 图 3-1 所 示 ， 配 置 搜索 引擎 在 搜索 时 使 用 神经 网 络 生成 适当 的 可 选 查询 ， 以 添加 到 用 户 输 
入 的 查询 中 。 你 需要 保留 原始 查询 〈 因 为 它 是 由 用 户 编写 的 )， 并 将 生成 的 查询 添加 为 可 选 查询 
( optional query )。 本 草 的 末尾 将 讨论 如 何 最 好 地 使 用 生成 的 查询 。 


查询 被 执行 
Oo, 


D4 so 


“movie zemeckis future” OR “Back 
Back to the Future by to the Future by Robert Zemeckis” 
Robert Zemeckis 
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自动 查询 扩展 ( automatic query expansion ) 是 一 种 生成 ( 部 分 ) 查询 的 技术 的 名 称 ， 这 种 技 
术 虽 在 后 台 最 大 化 返回 给 最 终 用 户 相 关 结 果 的 数量 。 某 种 意义 上 ， 同义词 扩展 ( 见 第 2 章 ) 是 目 
动 查询 扩展 的 一 种 特殊 情况 ,在 这 种 情况 下 ,你 仪 在 查询 时 使 用 它 (不 是 为 索引 同义词 ,而 是 为 
了 扩展 查询 中 词素 的 同义词 )。 
你 的 目标 是 使 用 此 查询 扩展 功能 来 改进 查询 引擎 ， 包 括 以 下 方面 。 
口 将 查询 结果 为 0 的 可 能 性 最 小 化 。 为 查询 提供 可 选 的 文本 表示 ， 让 搜索 结 采 更 有 可 能 
命中 。 
口 通过 其 他 方式 ， 将 你 未 检索 到 的 结果 包含 进来 ， 以 提高 召回 率 〈 即 在 给 定 查询 时 ， 被 检 
索 到 的 相关 文档 占 全 部 相关 文档 的 比例 )。 
口 通过 增加 同时 与 原始 查询 和 可 选 查 询 匹配 的 结果 ， 来 提高 精确 率 ( 这 意味 着 可 选 查询 接 
近 原 始 查询 )。 















































说 明 查询 扩展 不 仅 可 以 用 神经 网 络 实现 ， 而 且 还 可 以 用 其 他 的 不 同 算 法 实现 。 理 论 上 ， 你 可 
以 使 用 黑 盒 替换 查询 扩展 模型 中 的 神经 网 络 。 在 (深度 ) 循环 神经 网 络 出 现 之 前 就 有 用 
于 生成 自然 语言 的 其 他 方法 [被 称 为 自然 语言 生成 ( natural language generation )， 是 自然 
语言 处 理 的 一 个 子 领域 ]。 本 章 最 后 将 把 这 种 方法 与 其 他 方法 做 一 个 简单 对 比 , 以 说 明 “ 循 
环 神经 网 络 不 可 思议 的 有 效 性 ”7。 


在 进行 循环 神经 网 络 实战 前 ( 束 像 许多 机 带 竺 习 场 景 一 样 )， 要 仔细 人 研究 如 何 训练 模型 、 应 
该 使 用 什么 类 型 的 数据 以 及 使 用 这 种 数据 的 原因 。 之 前 曾经 提 到 , 在 监督 学 习 中 ， 人 们 可 以 告诉 
算法 他 们 希望 模型 如 何 根 据 特定 输入 生成 输出 。 因此, 你 构建 输入 和 输出 的 方式 很 大 程度 上 取决 
于 你 想 要 实现 的 目标 。3.1.2 市 将 快速 浏览 三 种 数据 输入 循环 神经 网 络 可 能 的 方法 。 


3.1.2 ”数据 准备 


之 所 以 选择 循环 神经 网 络 来 实现 查询 扩展 , 是 因为 它们 非常 擅长 学 习 生 成 文本 序列 ( 包括 那 
些 没 有 出 现在 训练 数据 中 但 仍然 “有 意义 ”的 序列 )， 并 且 很 灵活 。 此 外 ， 与 其 他 使 用 语法 学 、 
马尔 可 夫 链 等 的 自然 语言 生成 算法 相 比 , 循环 神经 网 络 需 要 的 调 优 通常 更 少 。 尽管 这 些 听 起 来 者 
很 棒 , 但 是 在 实践 中 生成 可 选 查询 时 , 你 预计 会 发 生 什 么 ? 生成 的 查询 应 该 是 什么 样 的 ? 正如 计 
算 机 科学 中 经 党 出 现 的 那样 ， 答 案 是 视 情 况 而 定 ! 

定义 想 要 实现 的 目标 非常 重要 。 假 如 用 户 输入 查询 “books about artificial intelligence”， 众 洒 
以 提供 带 有 相同 语义 信息 的 其 他 查询 (或 句子 )， 例 如 “publications from the field of artificial 
intelligence” 或 “books dealing with the topic of intelligent machines”。 同 时 ， 你 需要 考虑 这 种 可 选 
表示 在 搜索 引擎 中 有 多 少 用 处 一 一 如 果 没 有 涉及 人 工 智能 主题 的 文档 , 可 选 查 询 得 到 的 结果 可 能 
会 为 0! 你 不 希望 生成 完美 但 无 用 的 可 选 查询 表示 。 相 反 ， 你 可 以 仔细 查看 用 户 查 询 并 提供 基于 















































GD 参见 Andrej Karpathy 的 文章 “The Unreasonable Effectiveness of Recurrent Neural Networks”。 
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其 包含 的 信息 创建 的 奉 代 表示 , 或 者 使 查询 生成 算法 从 索引 数据 而 非 用 户 数 据 中 获取 信息 ,以 便 
生成 的 可 选 查 询 更 好 地 反映 搜索 引擎 中 已 有 的 内 容 ( 并 减少 可 选 查询 无 返回 结果 的 问题 )。 

在 现实 生活 中 ， 你 通常 可 以 访问 查询 日 志 ， 这 些 日 志 记 录 了 用 户 通 过 搜索 引擎 查询 的 内 容 ， 
并 包含 了 搜索 结果 的 最 简化 信息 。 通 过 查看 查询 日 志 可 以 得 到 许多 信息 。 例如 ,你 可 以 清楚 地 看 
到 人 们 何 时 找 不 到 他 们 正在 寻找 的 内 容 , 因为 他 们 提交 了 几 个 具有 相似 意义 的 查询 。 你 还 可 以 观 
察 用 户 如 何 从 搜索 一 个 主题 切换 到 为 一 个 主题 。 举 个 例子 ,假设 你 正在 为 一 家 问 用 户 提 供 政 治 、 
文化 和 时 尚 新 闻 的 媒体 公司 构建 搜索 引擎 。 下 面 是 一 个 示例 查询 日 志 。 

time: 2017/01/06 09:06:41, query:{"artificial intelligence"}, results: 

(sl2e=10, ageiraogTn aae5n :1) 


time: 2017/01/06 09:08:12, query:{"books about AI"}, results: 
{size=1, ids:["doc5"]} 





























time: 2017/01/06 19:21:45, query:{"artificial intelligence hype"}, results: 
{size=3, ids:["docl","doc8", ...]} 

time: 2017/05/04 14:12:31, query:{"coffee"}, results: 
{size=100, ids:["docl13","doc588", ...]} 一 一 一 一 一 一 一 一 一 

time: 2017/10/08 13:26:01, query:{"latest trends"}, results: 
{SLize=15,, Ldes[l"doell3™ doc23™, :=|} 


查询 “coffee” 返 回 了 100 个 结果 ， 
得 到 的 前 两 个 文档 标识 符 是 doc113 
和 doc588 
假设 这 是 搜索 引擎 上 记录 用 户 活动 的 巨大 查询 日 志 的 一 部 分 。 现 在 ， 想象 你 需要 从 此 查询 
日 志 构 建 一 个 训练 集 (training set )， 一 个 输入 与 期 望 输出 关联 的 样本 集合 。 使 相似 查询 关联 ， 
以 便 构建 训练 样本 ， 其 中 输入 是 查询 ， 目 标 输 出 是 一 个 或 多 个 关联 查询 。 在 本 例 中 ， 每 个 样本 
将 包含 一 个 输入 查询 和 一 个 或 多 个 输出 查询 。 实 际 上 ， 将 查询 日 志 用 于 此 类 和 学习 任务 是 很 常见 
的 ， 原 因 如 下 : 
口 查询 日 六 反映 了 特定 系统 上 用 户 的 行为 ， 因 此 生成 的 模型 表现 出 的 行为 与 实际 用 户 和 效 
据 相 对 接近 ; 
口 使 用 或 生成 其 他 数据 集 可 能 会 产生 额外 成 本 ， 同 时 可 能 会 训练 出 一 个 基于 不 同 数 据 、 用 
户 、 领 域 等 信息 的 模型 。 
在 当前 的 例子 中 ， 假 设 你 有 两 个 相关 的 查询 :“ 男 装 最 新 趋势 ”( men clothing latest trends ) 
和 “巴黎 时 装 周 ”( Paris fashion week )。 你 可 以 交 蔡 使 用 它们 作为 输入 和 输出 来 训练 神经 网 络 。 
你 需要 谨慎 决定 如 何 度量 两 个 查询 的 相关 度 〈 相 似 度 )。 和 常识 告诉 你 ， 这 两 个 查询 在 语义 上 是 相 
同 的 ， 因 为 巴黎 时 装 周 对 服 冯 (时尚 ) 潮流 (包括 男性 和 女性 ) 都 有 显著 影响 。 因 此 ， 你 可 能 决 
定 将 “Paris fashion week” 设 置 为 “men clothing latest trends” 碍 询 的 奉 代 表示 ， 如 图 3-2 所 示 。 
但 是 在 这 种 情况 下 , 搜索 引擎 和 神经 网 络 都 不 了 解 时 尚 主题 , 它们 只 能 看 到 输入 文本 、 输 出 文本 
和 问 量 。 
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Fashion trends 


图 3-2 从 查询 中 学 习 


查询 日 志 中 的 每 一 行 都 包含 用 户 输入 的 查询 和 其 搜索 结果 ,更 精确 地 说 ,是 匹配 结果 的 文档 
ID。 但 这 不 是 你 需要 的 。 你 的 训练 样本 必须 由 输入 查询 与 一 个 或 多 个 输出 查询 组 成 ,这 些 输出 查 
询 与 输入 查询 相似 或 以 某 种 方式 相关 。 因 此 ,在 训练 网 络 之 前 ,你 需要 人 处理 搜索 日 志 的 行 并 创建 
训练 集 。 这 种 涉及 操纵 和 调整 数据 的 工作 通常 称 为 数据 准备 ( data preparation ) 或 预 处 理 
( preprocessing )。 虽 然 听 起 来 有 点 单调 乏味 ， 但 这 对 任何 相关 机 需 学 习 任 务 的 有 效 性 来 说 都 至 天 
重要 。 

以 下 部 分 介绍 了 为 神经 网 络 选择 输入 和 输出 序列 的 三 种 方法 , 用 于 学 习 生 成 可 选 查 询 : 使 生 
成 相似 搜索 结果 集 的 查询 相互 关联 , 使 来 自 特 定时 间 徐 口中 同一 用 户 的 查询 相互 关联 , 或 使 包含 
相似 搜索 词 项 的 查询 相互 关联 ,这 些 方 法 中 的 每 一 个 都 对 神经 网 络 学 习 生 成 新 查询 的 方式 有 特定 
的 效果 。 


1. 使 生成 相似 搜索 结果 集 的 查询 相互 关联 
第 一 种 方法 对 共 至 了 部 分 相关 搜索 结 来 的 查询 进行 分 组 。 例如 , 你 可 以 从 示例 查询 日 志 中 所 
取 以 下 内 容 ， 如 代码 清单 3-1 所 示 。 


代码 清单 3-1 利用 共 至 结 采 去 关联 查询 
query:{"artificial intelligence"} -> {"books about AI" 
，"artificial intelligence hype"} < 一 共享 文档 1 和 文档 5 
dquery:{"books about AI"} -> { 
"ificlidl TiNEelILlioqgenGery :XN—= 夺 蛙 文档 5 
query:{"artificial intelligence hype"} -> 1{ 
"el ll 生 < 一 共享 文档 1 
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aQquery:{"coffee"} -> {"latest trends"} 
aquery:{"latest trends"} -> {"coffee"} 


通过 将 搜索 日 志 中 具有 共享 文档 的 查询 关联 起 来 ， 你 可 以 看 到 “latest trends” 可 以 生成 
“coffee”， 反 之 亦 然 ， 而 与 人 工 乔 能 相关 的 查询 似乎 提示 了 很 好 的 珍 代 方案 。 

请 注意 , “latest trends”( 最 新 趋势 ) 是 个 相对 概念 : 某 一 天 的 最 新 趋势 可 能 (或 将 ) 明显 不 
同 于 明天 或 下 周 。 假设 coffee 趋势 持续 了 一 个 星期 , 那么 神经 网 络 在 coffee 出 现在 新 闻 中 一 个 月 
之 后 依然 把 “coffee” 作 为 “latest trends” 的 可 选 查询 就 不 是 一 种 好 的 做 法 。 随 着 搜索 引 敬 外 部 
的 真实 世界 的 变化 , 你 需要 小 心 使 用 那些 会 不 断 更 新 的 数据 , 或 者 至 少 通 过 删除 可 能 导致 错误 结 
果 的 训练 样本 来 避 倪 潜在 问题 ， 就 像 这 个 例子 一 样 。 


2. 使 来 自 特 定时 间 窗 口中 同一 用 户 的 查询 相互 关联 

第 二 种 可 能 的 方法 依赖 一 个 假设 ， 即 用 户 在 短 时 间 内 搜索 的 是 相似 的 事物 。 例 如 ， 如 果 你 正 
在 搜索 “that specific restaurantI wentto, but I can’trecall its name”， 那 么 你 执行 的 多 个 搜索 都 是 与 
这 个 需求 相关 的 。 此 方法 的 关键 在 于 在 查询 日 志 中 识别 准确 的 时 间 窗 口 ,， 使 关于 相同 信息 需求 的 
查询 得 以 组 合 在 一 起 ( 无论 其 结果 如 何 )。 实际 上 上， 识别 与 相同 需求 相关 的 搜索 会 话 未 必 人 简单 ， 
这 要 取决 于 搜索 日 志 的 信息 量 。 例 如， 如 果 搜 索 日 志 是 所 有 用 户 的 并 发 匿名 搜索 的 简单 列表 ,就 
很 难 分 辨 某 个 用 户 执行 了 哪些 查询 ; 而 如 果 有 每 个 用 户 的 信息 (例如 其 IP 地址 )， 则 可 以 尝试 识 
别 每 个 主题 的 搜索 会 话 。 

现在 假设 样本 搜索 日 志 来 自 单个 用 户 。 每 行 的 时 间 信 息 表明 ,前 两 个 查询 是 在 2 分 钟 的 窗口 
中 运行 的 ， 而 其 他 查询 是 相隔 很 长 时 间 运 行 的 。 因 此 ,你 可 以 关联 前 两 个 查询 ，“artificial 
intelligence” 和 “books about AI ， 并 路 过 其 他 查询 。 但 在 现实 生活 中 ， 人 们 可 能 会 同时 处 理 多 
件 事 情 ， 比 如 在 上 班 途中 想 要 获取 有 关 技 术 主 题 的 信息 , 同时 也 需要 有 关公 共 交 通 时 间 表 或 高 速 
公路 交通 的 信息 。 在 这 种 情况 下 ， 如 有 果 不 参 考查 询 词 项 ( 本 节 介 绍 的 第 三 种 方法 )， 就 很 难 区 分 
哪些 查询 在 语义 上 是 相关 的 。 


3. 使 包含 相似 搜索 词 项 的 查询 相互 关联 
使 用 相似 词 项 来 关联 碍 询 是 很 难 实现 的 ,虽然 这 上 听 起 来 很 和 测 单 。 你 可 以 在 搜索 日 志 中 查找 碍 
询 中 的 第 用 词 项 ， 如 代码 清单 3-2 所 示 。 


代码 清单 3-2 使 用 搜索 词 关联 查询 
query:{"artificial intelligence"} -> 
{"artificial intelligence hype"} < 一 共享 “artificial” 和 “intelligence” 这 两 个 词 项 
duery "BooRs GDout. XT =. 1) < 一 不 共享 
query:{"artificial intelligence hype"} -> 
{"artificial intelligence"} < 一 共享 “artificial” 和 “intelligence” 这 两 个 词 项 
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与 前 面 的 列表 对 比 , 可 以 看 出 此 处 你 丢失 了 查询 结果 所 含 的 一 些 信息 。 此 外 , 训练 集 也 更 小 、 
更 少 。 让 我 们 看 看 “books about AI”。 可 以 确定 ， 这 条 查询 与 “artificial intelligence” 相 关 ， 也 可 
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能 与 “artificial intelligence hype” 有 关 。 但 简单 的 词 项 匹配 并 没有 抓 住 “AI" 是 “artificial intelligence” 
的 缩写 这 一 事实 。 你 可 以 通过 同义词 扩展 技术 来 处 理 这 个 问题 ,正如 第 2 章 所 介绍 的 那样 ， 这 样 
做 需要 额外 的 预 处 理 步 又 , 并 产生 一 条 新 的 搜索 日 志 , 在 这 一 行 日 志 内 容 中 , 同义词 得 到 了 扩展 。 
本 例 中 ， 如 果 同 义 词 扩展 算法 能 够 将 词 项 “AI” 映 射 到 其 全 拼 单 词 “artificial intelljgence”， 你 将 
得 到 如 代码 清单 3-3 所 示 的 输入 -输出 对 。 


代码 清单 3-3 ”利用 搜索 词 项 与 同义词 扩展 关联 查询 
query:{"artificial intelligence"} -> {"artificial intelligence hype"} 
query:{"books about AI"} -> {} 
query:{"books about artificial intelligence"} -> 

{"artificial intelligence", 

"artificial intelligence hype"} < 一 
query:{"artificial intelligence hype"} -> {"artificial intelligence"} 
query:{"coffee"} -> {} 
query:{"latest trends"} -> {} 


与 前 一 个 结果 相 比 , 你 现在 有 了 一 个 附加 的 映射 。 它 使 用 由 新 输入 查询 “books about artificial 
intelligence” 生 成 的 同义词 ， 而 这 在 原始 搜索 日 志 中 不 存在 。 虽 然 这 看 起 来 很 好 ， 但 要 小 心 ， 因 
为 每 个 查询 中 的 每 个 词 项 都 可 能 有 多 个 同义词 。 在 使 用 WordNet 这 样 的 大 型 词典 , 以 及 使 用 基于 
相似 度 的 词 艇 入 (例如 word2vec ) 来 扩展 同义词 时 ， 和 党 和 常会 出 现 这 种 情况 。 在 训练 神经 网 络 时 
通常 需要 更 多 的 数据 ， 但 同时 这 些 数据 也 必须 具有 民 好 的 质量 才能 获得 良好 的 结果 。 不 要 忘记 ， 
这 是 一 个 训练 用 于 生成 序列 的 神经 网 络 的 预 人 处理 阶段 。 如 果 你 给 神经 网 络 提供 的 文本 序列 没有 多 
大 意义 (并非 某 个 词 的 所 有 同义词 都 适合 于 每 个 可 能 的 上 下 文 )， 它 将 生成 没有 意义 的 序列 。 

如 果 你 打算 使 用 同义词 扩展 ,那么 你 可 能 不 应 扩展 每 个 可 能 的 同义词 ， 相 反 , 你 只 能 对 没有 
相应 可 选 查询 的 输入 查询 执行 此 操作 ， 例 如 前 一 个 示例 中 的 “books about AI 。 


4. 从 索引 数据 中 选择 输出 序列 

如 果 到 目前 为 止 所 介绍 的 技术 在 数据 上 不 能 良好 运行 。 例如, 对 用 户 输 入 的 查询 给 出 过 少 的 
结果 或 不 能 给 出 结 采 ， 那么 你 可 以 从 索引 数据 中 获得 一 些 帮助 。 在 许多 现实 场景 中 ， 索引 文档 都 
有 一 个 相对 较 短 的 标题 。 如 有 果 这 个 标题 与 原始 输入 查询 相关 ， 则 可 以 将 其 用 作 查 询 。 请 再 次 选择 
查询 “movie Zemeckis future”。 在 电影 搜索 引擎 (如 IMDB ) 上 运行 它 很 可 能 返回 如 下 内 容 。 

title: Back to the Future 

director: Robert Zemeckis 

year: 1985 


writers: Robert Zemeckis, Bob Gale 
stars: Michael J. Fox, Christopher Lloyd, Lea Thompson, ... 


想象 一 下 ， 该 文档 是 如 何 被 检索 到 的 : 

口 “movie” 这 个 词 项 在 有 关 电 影 的 搜索 引擎 中 是 停 用 词 ， 所 以 它 不 参与 匹配 ; 
口 “Zemeckis” 一 词 在 writers 和 director 字段 都 进行 匹配 ; 

口 “future” 一 词 在 标题 字段 中 得 到 匹配 。 

















附加 的 映射 ， 共 享 “artificial” 
和 “intelligence” 词 项 
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设想 上 自己 是 一 个 同时 查看 查询 和 结果 的 人 : 当 用 户 输入 查询 时 , 如 果 你 看 到 用 户 输入 “movie 
Zemeck is future”， 你 可 以 立即 告诉 他 们 应 该 输入 一 个 类 似 于 “back to the future” 的 查询 ， 而 非 
“movie zemeck is future”。 这 正 是 你 可 以 传递 给 神经 网 络 的 训练 样本 类 型 , 由 输入 (“movie Zemeck 
is future”) 和 目标 输出 (“back to the future”) 组 成 。 你 可 以 预 处 理 搜索 日 志 ， 以 便 神 经 网 络 生成 
的 可 选 查询 能 够 返回 最 佳 结果 。 这 样 做 可 能 有 助 于 减少 0 结果 的 查询 数量 ,因为 可 选 查询 中 的 提 
示 不 是 来 利用 户 生 成 的 查询 ,而 是 来 自 相 关 文 档 的 文本 。 要 构建 训练 样本 ,就 需要 将 查询 与 搜索 
日 记 中 前 两 个 或 三 个 相关 文档 的 标题 相关 联 ， 如 图 3-3 所 示 。 
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movie zemeckis 
future 
movie dark future ford 最 相关 文档 的 训练 集 
star wars final 0 
episode -一 一 > | Star Wars the Last Jedi 


图 3-3 ”从 相关 文档 的 标题 中 学 习 


你 可 能 会 想 , 为 什么 不 使 用 搜索 引擎 来 生成 可 选 查询 ,而 要 使 用 神经 网 络 呢 ? 这 种 方法 可 以 
限制 特定 输入 文本 的 可 选 查询 集 ， 使 其 与 搜索 引擎 能 做 的 相 匹 配 。 例 如 ， 如 采 你 使 用 搜索 引擎 ， 
“movie Zemeckis future” 将 始终 提供 相同 的 可 选 查询 集 。 在 上 面 这 个 例子 中 ， 这 很 有 用 。 但 是 ， 
如 果 用 户 输入 “movie Spielberg future”( 把 电影 制 片 人 与 导演 混 消 了 ) 怎么 办 ? 在 搜索 引擎 中 没 
有 与 “Spielberg” 这 一 词 项 相 匹 配 的 项 。 因 此 搜索 引擎 可 能 会 返回 很 多 Steven Spielberg 所 导演 的 
涉及 “future” 一 词 的 电影 ， 但 它 不 会 返回 “back to the future”。 关 键 在 于 ， 只 要 在 表示 可 选 查 询 
上 目标 输出 与 输入 相关 ， 你 就 不 应 局 限于 使 用 查询 来 训练 神经 网 络 。 


5. 无 监督 文本 序列 流 

回 循环 神经 网 络 输入 数据 以 生成 文本 ， 有 一 种 (与 上 述 几 种 方法 ) 完全 不 同 的 方法 ， 那 就 是 
对 文本 流 执行 无 监督 和 学习。 第 1 草 提 到 过 ， 无 监督 学 习 是 机 带 学 习 的 一 种 形式 ， 学 习 算法 中 并 没 
有 告知 任何 关于 什么 是 好 的 《或 坏 的 ) 输出 的 信息 ， 该 算法 只 是 尽 可 能 准确 地 建立 数据 模型 。 你 






给 定 输入 查询 ， 
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会 发 现 这 可 能 是 循环 神经 网 络 学 习 生 成 文本 最 令 人 恢 讶 的 方式 : 没有 人 告诉 它们 什么 是 好 的 输 
出 ， 所 以 它们 只 能 基于 输入 来 学 习 重 现 高 质量 的 文本 序列 。 
请 在 搜索 日 志 示 例 中 逐个 接收 查询 ， 并 删除 其 他 所 有 内 容 。 


artificial intelligence 
books about AL 

artificial intelligence hype 
coffee 

latest trends 


如 你 所 见 ， 这 是 纯 文本 。 你 需要 做 的 就 是 决定 如 何 确定 查询 的 终止 。 本 例 中 ,你 可 以 使 用 回 
车 人行 (\n ) 作为 两 个 连续 查询 的 分 隅 符 , 并 且 文 本 生成 算法 将 在 生成 回 车 时 无 条 件 停 止 。 这 种 方 
法 很 诱 人 , 它 几 乎 不 需要 预 处 理 , 要 使 用 的 数据 可 以 来 日 任何 地 方 ， 因 为 它 只 是 纯 文本 。 你 将 在 
本 章 后 续 内 容 中 看 到 它 的 优点 和 缺点 。 


3.1.3 生成 数据 的 小 结 


以 下 是 本 证 内容 的 小 结 。 

口 对 相似 查询 执行 监督 学 习 ， 优 点 是 能 够 明确 哪 种 是 你 认为 好 的 、 相 似 的 查询 ; 缺点 是 神 
经 网 络 的 有 效 性 将 取决 于 你 在 数据 准备 阶段 对 两 个 查询 相似 度 的 定义 。 

口 你 可 能 不 希望 明确 指定 两 个 查询 何 时 相似 ， 而 希望 让 查询 的 相关 文档 提供 可 选 查询 文本 。 
这 将 使 神经 网 络 生成 可 选 查 询 ( 其 文本 来 目 索 引文 档 ， 如 文档 标题 )， 从 而 减少 查询 结 
很 少 或 为 0 的 情况 。 

口 无 监督 方法 将 来 日 搜索 日 志 的 碍 询 流 视 为 一 系列 合理 的 连续 单词 ， 因 此 基本 不 需要 什么 
数据 准备 。 这 种 方法 的 优点 是 易于 实现 ， 并 且 可 以 紧 紧 抓 住 用 户 可 能 感 兴趣 的 连续 查询 
(以 及 主题 )。 

在 这 方面 不 仅 存在 许多 替代 方案 , 还 存在 很 大 的 空间 来 创造 性 地 构建 新 的 方法 ,以 生成 适合 

用 户 需 求 的 数据 。 关 键 在 于 ， 要 注意 如 何 为 系统 准备 数据 。 假 设 你 选择 了 这 里 讨论 的 方法 之 一 ， 
接 下 来 本 章 将 研究 循环 神经 网 络 如 何 学 习 生 成 文本 序列 。 


3.2 学习 序列 


第 1 曹 介绍 了 神经 网 络 的 一 般 架 构 : 其 网 络 两 边 是 输入 层 和 输出 层 ， 中 间 是 隐藏 层 。 在 第 2 
草 中 , 我 们 开始 研究 用 于 实现 word2vec 算法 的 两 个 不 太 通 用 的 神经 网 络 模型 ( continuous-bag-of- 
words 和 skip-gram ), 到 目前 为 止 , 所 讨论 的 架构 可 用 于 为 输入 映 冉 到 对 应 输出 建 模 , 在 skip-gram 
模型 的 情况 下 ， 则 是 将 表示 某 个 单词 的 输入 同 量 映射 到 表示 固定 数量 单词 的 输出 癌 量 。 

请 考虑 一 个 简单 的 前 馈 神经 网 络 , 你 可 以 使 用 它 来 检测 文本 句子 中 使 用 的 声言 : 例如 , 英语 、 
德语 、 简 萄 牙 语 和 意大利 语 4 种 语言 。 这 称 为 多 类 别 分 类 任务 ( multi class classification task )， 其 
中 输入 是 一 段 文 本 ,输出 是 对 此 输入 指定 的 3 个 或 更 多 可 能 的 分 类 之 一 (第 1 革 中 的 文档 分 类 示 
例 也 是 一 个 多 类 别 分 类 任务 )。 在 本 例 中 ， 执 行 任务 的 神经 网 络 将 有 4 个 输出 神经 元 ， 每 个 神经 
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元 对 应 一 个 分 类 (语言 )。 输 出 层 中 只 有 一 个 输出 神经 元 会 被 设置 为 1， 以 表示 输入 属于 某 个 类 。 
例如 ， 如 果 输 出 神经 元 1 的 值 为 1， 则 输入 文本 被 分 类 为 英语 ; 如 果 输 出 神经 元 2 的 值 为 1， 则 
输入 文本 被 分 类 为 德语 ; 等 等 。 

定义 输入 层 的 维度 比较 棘手 。 假 设 你 正在 使 用 固定 大 小 的 文本 序列 , 则 可 以 相应 地 设计 输入 
层 。 要 进行 语言 检测 ， 就 需要 数 个 单词 ， 因 此 假设 你 将 输入 层 设置 为 9 个 神经 元 ， 每 个 神经 元 输 
入 一 个 单词 ， 如 图 3-4 所 示 。 








第 1 层 
(输入 层 ) 


0.1 | 0.3 | 0.2 | 0.1 10.04| 0.1 | 0.5 | 0.8 | 0.6 





图 3-4 用 于 语言 检测 的 具有 9 个 输入 神经 元 、4 个 输出 神经 元 的 前 馈 神 经 网 络 


说 明 在 实践 中 ,在 单词 和 神经 元 之 间 使 用 这 种 一 对 一 的 映射 是 很 难 的 ， 正 如 在 word2vec 中 介 
绍 的 一 位 有 效 编码 技术 ， 每 个 单词 都 表示 为 除了 一 位 不 为 0、 其 余 全 是 0 的 向 量 ， 其 大 小 
等 于 整个 词汇 的 大 小 。 在 这 种 情况 下 ， 如 果 你 使 用 一 位 有 效 编码 ， 输 入 层 包 含 的 神经 元 
个 数 将 为 词汇 表 大 小 的 9 倍 。 但 是 因为 我 们 专注 于 国定 大 小 的 输入 ， 所 以 它 在 这 里 并 不 
重要 。 





显然 ,如 朱文 本 序列 少 于 9 个 单词 ,就 会 出 现 问题 。 因此 , 你 需要 使 用 一 些 假 填 充 词 填充 它 。 
对 于 较 长 的 序列 ， 你 将 一 次 进行 9 个 单词 的 语言 检测 。 考 虑 一 下 电影 评论 的 文本 。 评 论 内 容 可 能 
是 为 一 种 语言 ， 如 意大利 语 ; 但 电影 标题 为 其 原始 语言 ， 如 英 霹 。 如 果 将 评论 文本 切 分 为 9 个 单 
词 序 列 ， 则 输出 可 以 是 “意大利 语 ”或 “英语 ”， 这 取决 于 输入 神经 网 络 的 是 文本 的 哪 一 部 分 。 

在 考虑 到 这 种 限制 的 情况 下 , 如 何 让 神经 网 络 从 未 知 大 小 的 输入 序列 中 学 习 呢 ? 如 果 知 近 网 
络 要 学 习 的 每 个 序列 的 大 小 ， 你 可 以 使 输入 层 足 够 长 以 包含 整个 序列 。 但 是 在 长 序列 的 情况 下 ， 
这 样 做 会 降低 性 能 。 这 是 因为 , 为 了 给 出 准确 结果 ,网 络 从 较 大 的 输入 中 学 习 需 要 更 多 隐藏 层 中 
的 神经 元 参与 。 因 此 , 该 解决 方案 不 能 很 好 地 扩展 应 用 。 循 环 神经 网 络 可 以 使 其 输入 和 输出 层 大 
小 保持 固定 ,从 而 处 理 无 限 的 文本 序列 , 因此 它们 非常 适合 在 目 动 扩展 查询 中 学 习 生 成 文本 序列 。 
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3.3 ”循环 神经 网 络 


人 们 可 以 将 循环 神经 网 络 视 为 这 样 一 个 神经 网 络 : 它 在 处 理 信 息 时 可 以 记 住 它 处 理 过 的 输入 
言 奶 ， 因 此 由 后 续 输入 产生 的 输出 也 取决 于 先前 看 到 的 输入 。 同 时 , 输入 层 ( 如 采 循 环 神经 网 络 
生成 序列 ， 还 包括 输出 层 ) 的 大 小 是 固定 的 。 

虽然 现在 看 来 这 有 点 抽象 , 但 你 会 明白 它 在 实践 中 的 运作 方式 以 及 它 之 所 以 重要 的 原因 。 在 
不 使 用 循环 神经 网 络 的 情况 下 ， 让 我 们 尝试 使 用 具有 5 个 输入 、4 个 输出 的 症 馈 神经 网 络 生成 文 
本 序列 .语言 检测 样本 为 每 个 单词 使 用 了 一 个 输入 ,但 实际 上 使 用 字符 通 向 比 使 用 字符 串 更 方便 。 
这 样 做 的 原因 如 下 : 首先 ， 可 能 的 单词 数量 远 远 大 于 可 用 字符 的 数量 ; 并 且 ， 对 于 网 络 来 说 ， 学 
习 处 理 255 个 字符 的 所 有 可 能 组 合 ， 比 学 习 超过 300 000 个 单词 的 所 有 可 能 组 合 会 更 容易 “。 在 
使 用 一 位 有 效 编 码 技术 时 , 字符 将 用 大 小 为 255 个 神经 元 的 癌 量 表示 ， 而 从 《牛津 身 语 词典 》 中 
取出 的 一 个 单词 将 表示 为 大 小 为 301 000 个 神经 元 的 癌 量 。 在 神经 网 络 的 输入 层 ， 一 个 单词 就 需 
要 301 000 个 神经 元 ， 而 一 个 字符 只 需要 255 个 神经 元 。 此 外 , 单词 表示 具有 含义 的 字符 的 组 合 ， 
而 在 字符 层面 ， 这 样 的 信息 是 不 可 用 的 。 因 此 ， 具 有 字符 输入 的 神经 网 络 必须 首先 学 会 从 字符 生 
成 有 意义 的 单词 。 如 果 使 用 单词 作为 输入 ， 则 情况 并 非 如 此 。 总 体 来 说 ， 这 需要 取舍 。 

例如 ， 当 使 用 字符 时 ， 句 子 “the big brown fox jumped over the lazy dog” 可 以 被 切 分 成 5 个 
字符 的 板块 。 然 后 ， 每 个 输入 被 反馈 给 具有 5 个 输入 神经 元 的 神经 网 络 ， 如 几 3-5 所 示 。 无 论 输 
入 层 有 多 大 , 都 可 以 将 整个 序列 传递 到 了 网络。 看 起 来 这 里 似乎 可 以 使 用 一 个 “简单 ”的 神经 网 络 ， 
而 不 需要 用 到 循环 神经 网 络 。 

但 是 , 想象 一 下 这 样 一 种 情景 。 你 在 听 别 人 说 话 , 但 是 只 能 听 到 由 $ 个 字符 组 成 的 单词 ， 并 且 
在 听 到 下 一 个 字符 时 就 忘记 前 一 序列 ,在 这 种 情况 下 请 理解 那个 人 在 说 什么 。 例 如 , 如果 有 人 说 “my 
name is Yoda”， 你 将 依次 听 到 以 下 序列 ， 但 每 次 听 到 序列 时 ， 都 没有 记 住 其 他 序列 的 任何 信息 。 


my na 









































y nam 
name 
name 
ame 1 
me is 
© 18 
1S Y 
1S Yo 
S Yod 
Yoda 


现在 你 被 要 求 复 述 所 听 到 的 内 容 。 很 奇怪 ,使 用 如 此 短 的 固定 输入 ,几乎 不 可 能 听 到 整个 单 
词 ， 并 且 每 个 输入 始终 与 句子 的 其 余部 分 相 分 离 。 





J 这 个 数字 在 不 断 增加 ， 请 参阅 《牛津 英语 词典 》 
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完整 的 字母 字符 串 





| 0 | Ee | (oa) 8 es a lee 0 0 Go 
第 2 层 
第 1 个 输入 (一般 


Co。 
t|hlel |b | > 





第 2 层 


第 2 个 输入 


Oo, 
hlel |b|li| > 





第 3 个 输入 


Oo, 
一 


4 


4 


% 


Pp 
CK > 
OC 
六 六 


YXS 
0 


时 间 








图 3-5 神经 网 络 接收 具有 固定 的 5 个 神经 元 的 输入 层 输入 的 序列 


你 能 够 理解 句子 的 原因 在 于 ,每 次 听 到 5 字符 序列 时 ， 你 都 会 记录 之 前 收 到 的 内 容 。 假 设 你 
有 一 个 大 小 为 10 的 记忆 。 








my na () 
y nam (m) 

name (my) 

name (my ) 

ame i (my n) 
me 1S (my na) 

e is (my nam) 

1S Y (my name) 
1S Yo (my name ) 
S Yod (my name 工 ) 
Yoda (my name is) 








这 虽然 对 人 类 和 神经 网 络 如 何 处 理 输 入 和 记忆 进行 了 很 大 简化 , 但 足以 使 你 明白 , 在 处 理 序 
列 时 ,为 什么 使 用 循环 神经 网 络 比 使 用 普通 的 前 馈 神 经 网 络 有 效 ( 图 3-6 展示 了 一 个 简单 的 原理 )。 
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第 2 县 
(隐藏 循环 层 ) 


全 | 恨 第 3 层 
Es Hh (输出 层 ) 


图 3-6 一 个 循环 神经 网 络 


3.3.1 循环 神经 网 络 内 部 结构 和 动态 


这 些 特 殊 的 神经 网 络 被 称 为 循环 神经 网 络 , 是 因为 通过 隐藏 层 神 经 元 中 的 人 简单 循环 连接 ,这 
些 网 络 能 够 根据 当前 输入 和 先前 的 网 络 状 态 ( 由 先前 的 输入 产生 ) 来 工作 。 在 学 习 生 成 文本 “my 
name is Yoda” 的 实例 中 ,循环 神经 网 络 的 内 部 状态 可 以 被 认为 是 一 种 记忆 ， 它 使 得 理解 句子 成 
为 可 能 。 让 我 们 在 循环 神经 网 络 的 隐藏 层 中 选择 一 个 神经 元 ， 如 图 3-7 所 示 。 


第 2 层 
第 1 层 (循环 神经 元 ) 第 3 层 


(输入 神经 元 ) C 7 (输出 神经 元 ) 


图 3-7 ”循环 神经 网 络 隐藏 层 中 的 循环 神经 元 


循环 神经 元 把 来 自 输入 神经 元 的 信号 ( 来自 左 侧 神经 元 的 箭头 ) 与 内 部 存储 的 信号 ( 循环 入 
头 ) 进行 组 合 , 后 者 在 “Yoda” 示 例 中 起 到 记忆 的 作用 。 如 你 所 见 ， 给 定 内 部 状态 ( 隐藏 层 权重 
和 激活 函数 )， 这 个 单个 神经 元 将 处 理 输入 ， 并 将 其 转换 为 输出 。 它 还 根据 新 输入 及 其 当前 状态 
更 新 自身 状态 。 这 正 是 神经 元 学 习 关联 后 续 输 入 所 需要 做 的 事情 。 其 中 关联 (relate ) 是 指 在 训 
练 期 间 网 络 将 学 习 到 某 些 字符 之 间 的 关系 :例如 , 能 组 成 有 意义 的 单词 的 字符 更 可 能 出 现在 附近 。 
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回 到 “Yoda” 的 例子 ， 循 环 神经 网 络 将 学 到 : 看 到 字符 “Y” 和 “o” 后， 最 可 能 生成 的 字 
从 是 “d”， 因 为 之 前 已 经 看 到 过 序列 “Yod”。 尽管 这 对 循环 神经 网 络 学 习 的 动态 性 进行 了 极 大 信 
化 ,但 它 为 你 提供 了 基本 的 概述 。 


1. 代价 函数 

与 许多 机 器 学 习 算 法 一 样 ， 在 尝试 根据 输入 创建 “好 ”的 输出 时 ,神经 网 络 会 学 习 将 其 产生 
的 误差 最 小 化 。 你 在 训练 期 间 提供 的 良好 输出 与 输入 ,会 告诉 网 络 当 它 执行 预 测 时 有 多 大 误差 。 
这 种 误差 通常 由 代价 函数 ( cost function ) | 也 称 为 损失 函数 ( loss function ) ] 来 度量 。 学 习 算 法 
的 目的 是 优化 算法 参数 (在 神经 网 络 中 是 优化 权重 )， 从 而 让 损失 (或 代价 ) 尽 可 能 低 。 

亲 文 提 到 过 ,用 于 文本 生成 的 循环 神经 网 络 会 根据 文本 序列 的 概率 学 习 文本 序列 。 在 前 面 的 
例子 中 ， 序列 “Yoda” 的 概率 为 0.7， 而 序列 “ode” 的 概率 为 0.01。 适当 的 代价 函数 会 把 神经 网 
络 计算 的 概率 ( 及 其 当前 权重 ) 与 输入 文本 中 的 实际 概率 进行 比较 。 例 如 ， 序 列 “Yoda” 在 示例 
文本 中 实际 概率 大 约 为 1， 这 就 给 出 了 损失 (误差 )。 代价 函数 有 不 同 种 类 ， 而 直观 地 执行 这 类 
比较 的 函数 被 称 为 交叉 蚁 代价 水 数 ( cross-entropy cost function )。 循 环 神经 网 络 示例 将 使 用 它 。 
你 可 以 认为 这 样 的 代价 函数 是 对 神经 网 络 计 算 的 概率 与 其 输出 的 实际 概率 之 间 误 差 的 测量 。 例 
如 ， 如 果 一 个 学 习 了 “Yoda” 句 子 的 网 络 说 “Yoda” 这 个 词 的 概率 是 0.000 000 01， 那 么 损失 可 
能 会 很 高 。 因 为 “Yoda” 是 输入 文本 中 少量 已 知 的 良好 序列 之 一 ， 所 以 正确 的 概率 应 该 很 高 。 

代价 函数 在 机 需 学 习 中 起 看 关键 作用 , 因为 它们 定义 了 学 习 算 法 的 目标 。 不 同 的 代价 机 数 适 
用 于 不 同类 型 的 问题 。 例 如 ， 交 又 炉 代 价 函 数 对 于 分 类 任务 是 有 效 的 ， 而 当 神 经 网 络 需 要 预测 实 
际 值 时 ， 均 方 误 差 代 价 函 数 (mean squared error cost function ) 是 有 效 的 。 

为 代价 函数 的 数学 基础 可 能 需要 整整 一 章 的 篇 幅 ， 但 本 书 的 重点 是 深 度 学 习 搜 索 的 应 用 ， 
所 以 我 们 不 会 详细 介绍 。 但 是 ， 当 我 们 继续 阅读 本 书 时 ， 我 会 根据 要 解决 的 具体 问题 ， 对 代价 郴 
数 的 正确 选取 提出 建议 。 


2. 展开 循环 神经 网 络 

你 可 能 已 经 注意 到 , 前 馈 网 络 和 循环 神经 网 络 外 观 上 的 唯一 差异 在 于 隐藏 层 中 的 某 些 循环 算 
头 。 循 环 〈recurrent ) 一 词 指 的 是 就 是 这 样 的 循环 。 

有 一 种 方法 能 更 好 地 将 循环 神经 网 络 的 工作 方式 可 视 化 , 那 就 是 将 它 展开 (unroll )。 想 象 一 
下 ,将 循环 神经 网 络 展开 到 同一 网 络 的 一 组 有 限 连 接 副 本 中 。 这 在 实现 循环 神经 网 络 时 非常 有 用 ， 
同时 也 使 我 们 更 容易 看 到 循环 神经 网 络 如 何 自然 地 适应 序列 学 习 。 

之 前 说 过 在 “Yoda” 的 例子 中 ，10 个 字符 大 小 的 记忆 可 以 帮助 你 在 看 到 新 的 输入 时 仍然 记 
得 以 前 输入 的 字符 。 循 环 神经 网 络 具 有 通过 循环 神经 元 或 层 跟 踪 之 前 输入 (考虑 到 上 下 文 ) 的 能 
力 。 让 循环 神经 网 络 的 循环 层 " 炸 开 ” 为 一 组 10 层 的 副本 , 就 是 将 循环 神经 网 络 展开 为 10 步 ( 见 
图 3-8 )。 
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第 1 层 (输入 ) 


第 2 层 (展开 ) 





图 3-8 ”展开 的 循环 神经 网 络 读 取 “my name is Yoda” 


将 “my name is Yoda” 这 人 句 话 提供 给 一 个 展开 为 10 步 的 循环 神经 网 络 。 关 注 图 3-8 中 突出 显 
示 的 节点 ， 你 可 以 看 到 突出 显示 的 节点 从 输入 〈 字 符 s) 和 隐藏 层 (展开) 中 的 前 一 个 市 点 接收 
输入 ， 而 这 前 一 个 节点 义 接 收 来 目 字 符 i1 和 隐藏 层 中 前 一 个 节点 的 输入 ……… 这 可 以 追溯 到 第 一 个 
输入 。 其 思想 是 ， 每 个 节点 接收 以 下 信息 : 普通 输入 (序列 中 的 一 个 字符 ) 信息 ， 以 及 前 面 (与 
之 相连 ) 的 隐藏 层 市 点 的 先前 输入 和 网 络 的 内 部 状态 。 

此 外 , 癌 前 看 , 你 可 以 看 到 第 一 个 字符 (Cm ) 的 输出 仅 取决 于 网 络 的 输入 和 内 部 状态 (权重 )。 
而 字符 y 的 输出 取决 于 输入 、 当 前 状态 和 先前 状态 〈 在 这 里 实际 上 是 第 一 个 字符 m )。 

此 ， 展 开 参 数 是 当前 输入 生成 输出 时 网 络 可 以 回 漳 的 步 数 。 实 际 上 ,在 设置 循环 神经 网 络 
时 , 你 可 以 决定 要 用 于 展开 网 络 的 步 数 ,你 拥有 的 步 数 越 多 , 循环 神经 网 络 能 处 理 的 序列 就 越 长 ， 
但 是 它们 需要 更 多 的 数据 和 更 多 的 时 间 来 训练 。 现在, 你 应 该 基本 了 解 了 循环 神经 网 络 如 何 处 理 
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文本 这 样 的 输入 序列 ， 并 在 输出 层 中 生成 值 时 跟 踩 过 去 的 序列 。 


3. 基于 时 间 反 向 传播 : 循环 神经 网 络 如 何 学 习 

第 2 章 人 简要 介绍 了 反问 传播 , 这 是 使 用 最 广泛 的 前 馈 神 经 网 络 训练 算法 。 循环 神经 网 络 可 以 
锌 认为 是 具有 额外 维度 的 前 馈 网 络 , 而 这 个 额外 的 维度 就 是 时 间 。 循环 神经 网 络 的 有 效 性 在 于 它 
们 能 够 使 用 被 称 为 基于 时 间 反 向 传播 ( back propagation through tme，BPTT ) 的 学 习 算 法 来 学 习 
如 何 正 确 地 考虑 先前 输入 的 信息 。 它 本 质 上 是 简单 反问 传播 的 扩展 ， 由 于 循环 层 中 的 循环 ,循环 
神经 网 络 中 要 学 习 的 权重 数量 远 远 高 于 普通 前 馈 神经 网 络 。 这 是 因为 循环 神经 网 络 的 权重 可 以 控 
制 过 去 的 信息 如 何 流 过 。 我们 只 研究 展开 循环 神经 网 络 的 概念 。BPTT 调整 循环 层 的 权重 , 因此 ， 
为 了 获得 好 结 采 ， 展 开 的 次 数 越 多 ， 必 须 调 整 的 参数 束 越 多 。 本 质 上 ，BPTT 让 (循环 ) 神经 网 
络 不 仅 目 动 学 习 不 同 层 的 神经 元 之 间 的 连接 的 权重 , 而 且 还 自动 学 习 如 何 通 过 额外 的 权重 把 过 去 
的 信息 与 当前 的 输入 结合 到 一 起 。 

展开 循环 神经 网 络 的 原因 现在 应 该 更 明确 了 。 这 是 一 种 将 执行 循环 的 次 数 限制 为 循环 神经 元 
数 或 层 数 的 方法 , 它 可 以 让 学 习 和 预测 有 界 ， 不 会 无 限 循环 下 去 ( 因为 无 限 循环 会 使 计算 循环 神 
经 元 中 的 值 变 得 困难 )。 


3.3.2 ”长 期 依赖 


请 细 想 一 下 用 于 生成 查询 的 循环 神经 网 络 看 上 去 是 什么 样 的 。 假设 有 两 个 相似 的 查询 , 例如 
“books about artificial intelligence” 和 “books about machine learning”。( 这 是 一 个 简单 的 例子 ， 两 
个 序列 长 度 完 全 相同 。) 首先 要 做 的 事情 之 一 就 是 决定 隐藏 层 的 大 小 和 展开 的 数量 。3.3.2 万 提 到 ， 
展开 的 数量 控制 者 网 络 可 以 回 济 的 步 数 。 为 了 使 其 正常 工作 ,网 络 和 需要 足够 强大 , 这 意味 着 当 展 
开 的 数量 增加 时 , 它 需 要 隐藏 层 中 更 多 的 神经 元 来 正确 处 理 过 去 的 信息 。 层 中 的 神经 元 数量 定义 
了 网 络 的 最 大 能 力 (power )。 同 样 重要 的 是 ， 如 果 想 要 一 个 具有 许多 神经 元 (和 层 ) 的 网 络 ， 就 
需要 提供 大 量 数据 ， 以 便 网 络 在 输出 的 准确 率 方 面 表现 恨 好 。 

展开 的 数量 与 长 期 依赖 (long-term dependency ) 有 关 ， 长 期 依赖 是 指 ， 即 使 单词 在 文本 序列 
中 彼此 相隔 较 远 , 它们 之 间 也 可 能 存在 语义 相关 性 。 例如, 以 下 句子 中 相互 远离 的 单词 高 度 相关 。 






















































































In 2017, despite what happened during the 2016 Finals, Golden State Warriors won the 


championship again. 


阅读 这 人 句 话 ， 你 可 以 很 容易 地 理解 “championship”( 锦标 考 ) 这 个 词 对 应 年 份 “2017”。 但 
是 一 个 不 那么 聪明 的 算法 可 能 将 “championship” 与 “2016” 联 系 起 来 ， 因 为 这 也 是 一 个 可 能 
生 的 匹配 对 。 这 样 的 算法 没有 考虑 到 从 名 中 “2016” 这 个 词 对 应 “finals”( 总 决赛 )。 这 是 一 个 
长 期 依赖 的 例子 。 根据 正在 处 理 的 数据 , 你 可 能 需要 考虑 这 一 点 , 以 使 循环 神经 网 络 有 效 地 工作 。 

使 用 更 多 展开 有 助 于 减轻 长 期 依赖 的 问题 , 但 一 般 情况 下 , 你 不 知道 两 个 相关 单词 (或 字符 ， 
甚至 短语 ) 可 以 相隔 多 远 。 为 了 解决 这 个 问题 , 人 研究 人 员 提 出 了 一 种 改进 了 的 循环 神经 网 络 架 构 ， 
被 称 为 长 短期 记忆 (long short-term memory，LSTM ) 网 络 。 
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3.3.3 LSTM 网 络 


到 目前 为 止 ， 你 已 经 看 到 ， 在 普通 循环 神经 网 络 中 一 层 由 多 个 具有 循环 连接 的 神经 元 组 成 。 
而 LSTM 网 络 层 稍微 复杂 一 些 。 

LSTM 层 可 以 决定 以 下 内 容 : 

口 下 次 展开 时 应 通过 哪些 信息 ; 

口 应 使 用 哪些 信息 来 更 新 LSTM 网 络 内 部 状态 的 值 ; 

口 应 将 哪些 信息 用 作 下 一 个 可 能 的 内 部 状态 ; 

口 输出 哪些 信息 。 

与 vanilla 循环 神经 网 络 相 比 (循环 神经 网 络 中 最 基本 的 一 种 形式 ， 如 3.3.2 市 所 述 )，LSTM 
需要 学 习 更 多 参数 。 它 相当 于 录音 室 中 音响 工程 师 调 整 均衡 器 ( 对 应 LSTM )， 而 不 是 转动 音量 
旋钮 ( 对 应 循环 神经 网 络 )。 均衡 太 的 操作 要 复杂 得 多 ,但 如 果 能 进行 正确 调整 ， 就 可 以 得 到 更 
好 的 音质 。LSTM 层 的 神经 元 具有 更 多 权重 , 通过 调整 这 些 权 重 可 以 使 它们 学 习 何 时 记 住 信息 以 
及 何 时 忘记 它 。 这 使 得 训练 LSTM 网 络 的 计算 成 本 比 训练 循环 神经 网 络 高 。 

有 一 个 LSTM 神 经 元 的 轻 量 级 版 本 ， 但 它 仍然 比 vanilla 循 环 神经 网 络 神经 元 复杂 ， 叫 作 门 控 
循环 单元 (gatedrecurrent unit，GRU ) "。 尽 管 关 于 LSTM 还 有 很 多 东西 需要 了 解 ， 然 而 此 处 的 关 
键 是 ， 它 们 在 长 期 依赖 方面 表现 非常 好 ， 因 此 非常 适合 用 于 生成 查询 。 
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在 Deeplearning4j 中 ,你 可 以 使 用 LSTM 网 络 的 开 箱 即 用 实现 。 现 在 来 为 具有 一 个 隐藏 LSTM 
层 的 循环 神经 网 络 建立 一 个 简单 的 神经 网 络 配置 。 你 将 构建 一 个 循环 神经 网 络 ， 它 可 以 采样 50 
个 字符 的 文本 输出 。 虽然 这 不 是 一 个 很 长 的 序列 , 但 应 该 足以 处 理 短文 本 查询 (例如 “books about 
artificial intelligence” 是 35 个 字符 )。 

理想 情况 下 ， 展开 参数 应 大 于 目标 文本 样本 (输出 ) 大 小 ， 以 便 处 理 更 长 的 输入 序列 。 下 面 
的 代码 将 配置 一 个 循环 神经 网 络 ， 在 输入 层 和 输出 层 有 50 个 神经 元 ， 在 隐藏 (循环 ) 层 有 200 
个 神经 元 ， 展 开 10 个 时 间 步 ， 如 代码 清单 3-4 所 示 。 


代码 清单 3-4 ”LSTM 配置 样本 
隐藏 (smM) 层 输出 层 和 输入 层 
中 的 神经 元 数 中 的 神经 元 数 


int lstmLayerSize = 200; 


int sequenceSize = 50; 循环 神经 网 络 的 展开 步 数 





















































int unrollSize = 10; 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder!() 
cL TE 


中 参见 Kyunghyun Cho 等 人 的 文章 “Learning Phrase Representations Using RNN Encoder-Decoder for Statistical Machine 
Translation” 。 
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.layer(0, new LSTM.Builder() 利用 双 曲 正切 激活 函数 声明 

.nIn(sSeduenceSize) LSTM 层 有 50 个 输入 CnIn)、 
‘nOQut (lstmLayerSsize) 200 个 输出 (nout) 
.activation(Activation.TANH) .build()) 


.layer(2, new RnnOutputLayer.Builder (LossFunctions 
.LossFunction .MCXENT) 








.activation(Activation.SOFTMAX) 利用 softmax 激活 函数 声明 

TIN( IStmLavereize) 输出 层 有 200 个 输入 《nIn) 

-NOuE (seouenceesize). build(y) 及 50 个 输出 (nout )。 代 价 
.backpropType (BackpropType.TruncatedBPTT) 水 数 也 在 此 声明 


.tBPTTFOrwardLength (unrollSize) 
.tBPTTBackwardLength (unrollSizZe) 二 一 
‘build(); 利用 unrollsize 作为 基于 时 间 
反 向 传播 算法 的 参数 ， 声 明 循环 

神经 网 络 〈LSTM) 的 时 间 维 度 








请 务必 注意 有 关 此 体系 结构 的 几 个 细节 。 

口 为 交叉 炉 代 价 函数 指定 损失 也 数 参数 “。 

D 在 输入 和 隐 蕊 屋 上 使 用 双 曲 正切 激活 了 数 。 

口 在 输出 层 使 用 softmax 激活 阴 数 。 

使 用 交叉 入 代价 邑 数 与 在 输出 层 中 使 用 Softmax 滑 数 密切 相关 ,输出 层 中 的 Softmax 国 数 
将 其 每 个 输入 信号 转换 为 相对 于 其 他 信号 的 概率 ， 生 成 概率 分 布 (probability distribution ), 其 中 
每 个 这 样 的 概率 的 值 在 0 和 1 之 间 ， 并 且 所 有 值 的 总 和 等 于 1 。 

在 字符 级 文本 生成 的 上 下 文中 ， 你 将 为 用 于 训练 网 络 的 数据 中 的 每 个 字符 使 用 一 个 神经 元 。 
将 softmax 函数 应 用 于 隐藏 LSTM 层 生 成 的 值 后 ， 每 个 字符 将 具有 指定 的 概率 (0 和 1 之 间 的 
数字 )。 在 “Yoda” 示 例 中 ， 数 据 由 10 个 字符 组 成 ， 因 此 输出 层 将 包含 10 个 神经 元 。softmax 
国 数 使 输出 层 包含 每 个 字符 的 概率 。 
.031 
.001 
.022 
.088 
:OF 
.063 
; 181 
.009 


.120 
.408 


如 你 所 见 ， 最 可 能 的 字符 来 和 目 与 关联 字符 d 的 神经 元 〈 概率 等 于 0.408 )。 





























DO hn okK 如 
| 
V 
OO OO NC 








GD 原文 “you specify the loss-function parameter for the cross-entropy cost function”， 同 一 句 中 同时 使 用 了 损失 函数 
( loss function ) 与 代价 浮 数 ( cost function ) 两 个 术语 。 有 的 机 需 学 习 资 料 对 loss function 与 cost function 有 不 同 的 
定义 ,但 本 书 作 者 并 未 加 区 分 ， 交 替 使 用 这 两 个 术语 。 一 一 译 者 注 
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将 一 些 示例 文本 传递 给 此 LSTM 网 络 , 并 查看 它 学 习 生 成 的 内 容 。 不过, 在 为 查询 生成 文本 
之 前 ， 先 尝试 一 些 更 容易 理解 的 内 容 ， 这 有 助 于 确保 网 络 正确 运行 。 你 将 使 用 一 些 目 然 语 言 编写 
的 文本 ,具体 来 说 ， 就 是 取 自 谷 登 保 计 划 (the Gutenberg project ) 的 文献 片段 ， 如 “Queen. This is 
mere madness: And thus a while the fit will work on him”。 你 将 训练 循环 神经 网 络 ( 重新 ) 编写 水 
士 比 亚 的 诗歌 和 喜剧 ( 见 图 3-9)1 
































莎士比亚 
诗句 原文 







网 络 生成 
的 诗 包 







































KING EDWARD. 
This counsel, Artois, 
like to fruitful 
showers, 

Hath added growth 
unto my dignity ... 








KING THOMAS. 
This party, my dear, 
like to nice whatever, 
Has added growth 
unto my stuff; 


















循环 神经 网 络 
图 3-9 ”生成 莎士比亚 作品 文本 


一 -一 一 


因为 这 将 是 你 第 一 次 体验 循环 神经 网 络 , 所 以 建议 你 从 最 简单 的 方法 开始 训练 。 你 将 运行 无 
监督 训练 , 把 来 目 落 士 比 亚 作 品 的 文本 一 次 一 行 地 提供 给 网 络 , 如 图 3-10 所 示 。( 为 了 便于 阅读 ， 
输入 层 和 输出 层 大 小 设置 为 10。 ) 当 你 浏览 莎士比亚 作品 的 文本 时 ,你 将 获取 大 小 为 (展开 大 小 +1) 
的 摘录 ， 并 将 它们 (一 次 一 个 字符 ) 一 起 输入 到 输入 层 中 。 输 出 层 中 的 预期 结果 是 输入 摘录 中 的 
下 一 个 人 字符。 例如， 给 定 句 子 “work onhim”， 你 将 看 到 输入 接收 “workonphi” 字 符 的 输入 ， 以 
及 相应 的 输出 “ork on him”。 这 样 ， 你 训练 网 络 生 成 下 一 个 字符 ， 同 时 回溯 前 10 个 字符 。 
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第 1 层 (输入 ) a 
... And thus a \ 
Ct YOPOPPOIVY 
第 2? 层 
(展开 ) 
| pe a 
名 


(work on him | 
人 千 
选择 输入 
(mare) 
中 
O r K | 


O n h 


第 3 层 (输出 ) 


图 3-10 问 展 开 的 循环 神经 网 络 〈 基于 无 监督 序列 学 习 ) 输入 





你 之 前 配置 了 LSTM 网 络 ,现在 将 通过 迭代 水 士 比 亚 作品 文本 中 的 字符 序列 来 训练 它 。 首 乞 ， 
使 用 先前 定义 的 配置 初始 化 网 络 。 


MultiLayerNetwork net = new MultiLayerNetwork (conf ) :; 
net .TNE (ys 





如 上 所 述 , 你 正在 构建 一 个 循环 神经 网 络 ， 它 一 次 生成 一 个 字符 的 文本 序列 。 因 此 ,你 将 使 
用 DatasetIterator( 用 于 迭代 数据 集 的 DL4J API ) 来 创建 字符 序列 . CharacterIterator。 
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你 可 以 跳 过 有 关 characterIterator 的 一 些 细 节 。 通 过 以 下 内 容 初 始 化 它 : 
口 包含 执行 无 监督 训练 的 文本 的 源 文件 ; 
口 在 更 新 权重 之 前 应 该 提供 给 网 络 的 样本 数量 [ 小 批量 ( mini-batch ) " 牧 Y |]; 
口 每 个 样本 序列 的 长 度 。 
下 面 是 迭代 莎士比亚 作品 文本 字符 的 代码 。 


CharacterIterator iter = new CharacterIiterator("/path/to/shakespeare.txt", 
miniBatchSize, exampleLength).; 


现在 你 已 经 掌握 了 训练 网 络 的 所 有 难题 。 训 练 一 个 MultiLayerNetwork (多 层 网 络 ) 可 以 








通过 fit (Dateset) 方 法 完成 。 3 
MultiLayerNetwork net = new MultiLayerNetwork (conf) ; 
Mt LiL (3 
net.setListeners (new ScorelIterationListener(1)); 你 可 以 设置 监听 器 查 
Oh te 在 数据 集 看 训练 过 程 中 的 迭代 
| We EL 上 迭代 (例如 检查 损失 是 否 
本 随时 间 减 少 ) 
在 数据 集 的 每 个 部 分 上 训 
练 网 络 


如 果 想 要 检查 在 训练 期 间 网 络 产生 的 损失 值 是 否 会 随 着 时 间 的 推移 而 稳步 下 降 , 以 下 方法 可 
以 用 作 合 理性 检查 : 适当 设置 神经 网 络 ， 让 损失 值 稳 步 下 降 。 以 下 日 志 显 示 ， 超 过 10 次 友 代 后 ， 
损失 从 约 4176.82 变 为 约 3490.86 ( 其 间 有 一 些 起 伏 )。 





Score at iteration 46 is 4176.819462796047 

Score at iteration 47 is 3445.1558312409256 
Score at iteration 48 is 3930.8510119434372 
Score at iteration 49 is 3368.7542747804177 
Score at iteration 50 is 3839.2150762596357 
Score at iteration 51 is 3212.1088334832025 
Score at iteration 52 is 3785.1824493103672 
Score at iteration 53 is 3104.690257065846 

Score at iteration 54 1S 3648.584794826596 

Score at iteration 55 1S 3064.9664614373564 
Score at iteration 56 1S 3490.8566755252486 


























如 果 你 对 更 多 此 类 值 ( 例如 100 个 ) 的 分 数 和 损失 进行 绘图 ， 你 可 能 会 看 到 如 图 3-11 所 示 
的 内 容 。 


中 通常 batch 译 为 批 , 为 了 与 普通 意义 上 的 一 批 区 别 , 本 书 中 将 batch 译 为 批量 , mini-batch 译 为 小 批量 , 但 在 batch.、 
mini-batch 指 程序 中 的 参数 时 ， 保 留 英 文 原文 。 一 一 译 者 注 
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损失 


5000 
4000 
3000 
2000 


1000 


图 3-11 绘制 损失 趋势 图 


在 几 分 钟 的 学 习 之 后 ， 让 我 们 看 看 这 个 循环 神经 网 络 生成 的 一 些 序列 〈 每 50 个 字符 )。 

DQ ...0o me a fool of s itter thou go A known that fig... 

DQ ...ou hepive beirel true; They truth fllowsus; and... 

口 ...ot; suck you a lingerity again! That is abys. T... 

DQ...old told thy denuless fress When now Majester s... 

虽然 声 法 不 算 太 糟糕 ， 有 些 部 分 甚至 可 能 有 意义 ， 但 你 可 以 清楚 地 看 到 这 些 序 列 质量 不 高 。 
你 不 会 硕 望 使 用 此 网 络 为 最 终 用 户 以 目 然 语言 编写 查询 ， 因 为 其 结 采 不 佳 。 在 DL4J 示例 项 目 中 
可 以 找到 使 用 类 似 LSTM ( 具有 一 个 隐藏 的 循环 层 ) 生成 莎士比亚 作品 文本 的 完整 示例 。 

循环 神经 网 络 的 一 个 好 处 是 ， 已 经 证 明 增加 隐藏 层 数量 通常 可 以 提高 生成 结果 的 准确 性 “。 
这 意味 着 ， 给 定 足 够 的 数据 ， 增 加 隐藏 层 的 数量 可 以 使 更 次 的 循环 神经 网 络 更 好 地 工作 。 为 了 检 
验 这 是 否 适用 于 此 应 用 场景 , 让 我 们 构建 一 个 具有 两 个 隐藏 层 的 LSTM 网 络 , 如 代码 清单 3-5 所 示 。 


代码 清单 3-5 配置 具有 两 个 隐藏 层 的 LSTM 网 络 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder!() 
了 人 
.layer(0, new LSTM.Builder () 
.nNnIn(sequenceSize) 












































vs 信人 立 的 
.nOut (lstmLayerSize) 全 增加 与 
activatiom(Activation;TANH) .build()) | ee 
.layer(1, new LSTM.Builder() 六 LSTM 隐 源 层 


.nNnIin(lstmLayerSize) 


GD 参见 Razvan Pascanu 等 人 的 文章 “How to Construct Deep Recurrent Neural Networks”。 
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.NnOut (lstmLayerSize) 
.activation(Activation.TANH) .build()) 
.layer(2, new RnnOutputLayer.Builder (LossFunctions.LossFunction .MCXENT) 
.AaCctivation (Activation.SOFTMAX) 
.niIin(lstmLayerSize) 
.nOut (sequenceSize) .build()) 
.backpropType (BackpropType.TruncatedBPTT) 
.tBPTTFOrwardLength (unrollSize) .tBPTTBackwardLength (unrollSize) 
.build(); 


该 配置 下 ,再 次 使 用 相同 的 数据 集训 练 神经 网 络 ， 训 练 代码 保持 不 变 。 请 注意 如 何 从 训练 过 
的 网 络 生成 输出 文本 。 因 为 这 是 一 个 循环 神经 网 络 ， 所 以 你 使 用 DL4J API network .rnnTime- 
Step (INDArray)， 它 接受 一 个 输入 回 量 ,使 用 先前 的 循环 神经 网 络 状态 后 成 一 个 输出 回 量 ， 然 
后 更 新 该 状态 。 对 rnnTimeStep 的 进一步 调用 将 使 用 先前 存储 的 内 部 状态 来 生成 输出 。 

如 前 文 所 述 ， 该 循环 神经 网 络 的 输入 是 一 系列 字符 ， 每 个 字符 以 一 个 一 位 有 效 编 但 的 方式 表 
示 。 水 士 比 亚 作品 文本 包含 255 个 不 同 的 字符 ， 因 此 字符 输入 将 由 维度 为 255 的 癌 量 表示 , 除了 某 
一 维 设置 为 1， 其 余 维度 全 部 设置 为 0。 每 个 位 置 对 应 一 个 字符 ， 因 此 设置 向 量 某 个 位 置 为 1 意味 
者 输入 癌 量 表示 该 特定 字符 。 因 为 在 输出 层 中 使 用 softmax 激活 函数 ， 所 以 循环 神经 网 络 基于 输 
入 生成 的 输出 将 是 一 个 概率 分 布 。 这 样 的 分 布 将 告诉 你 , 针对 相应 的 输入 字符 ( 以 及 循环 神经 网 络 
层 存 储 的 之 前 输入 的 字符 信息 ) 更 可 能 生成 哪些 字符 。 概率 分 布 就 像 一 个 数学 函数 , 可 以 输出 所 有 
可 能 的 字符 ， 但 其 输出 某 些 字符 的 可 能 性 会 大 于 另 一 些 字 符 。 例 如 ， 在 由 句子 “my name is Yoda” 
训练 的 循环 神经 网 络 生成 的 癌 量 中 , 当前 一 个 输入 字符 是 mm 时 , 这 样 的 概率 分 布 更 可 能 生成 字符 y 
而 不 是 字符 mn (因此 序列 my 比 mn 更 可 能 被 生成 )。 这 种 概率 分 布 可 以 用 于 生成 输出 学 符 。 

首先 将 初始 化 字符 序列 〈 例 如 一 个 用 户 查询 ) 转换 为 字符 回 量 序列 ， 如 代码 清单 3-6 所 示 。 
代码 清单 3-6 ”对 字符 序列 进行 一 位 有 效 编码 

INDArray input = Nd4j .zeros (sequenceSize, 创建 一 个 所 需 大 小 






































1 的 输入 向 量 
char[] init = initialization.toCharArray () ; 
for (int 1 = 0; 1 < init.ljength; i++) { 
在 输入 序列 中 对 每 
int idx = characterliterator.convertCharacterToIndex( 一 个 字符 进行 迭代 
本 和 人 [让 


位 有 效 编码 向 量 ，“index” 


input .putScalar (new int[] {idx, 1}, 1.0f); 几 为 每 一 个 字符 创建 一 个 一 
位 置 设置 值 为 1 


得 到 每 一 个 字符 的 索引 
为 每 一 个 字符 回 量 生成 一 个 字符 概率 的 输出 回 量 , 这 个 输出 向 量 将 从 生成 的 分 布 中 通过 采样 
(提取 可 能 的 结果 ) 被 转换 为 实际 的 字符 。 


根据 所 给 输入 字符 向量) 
预测 概率 分 布 
INDArray output = network.rnnTimeStep (input); 


int sampledCharacterIidx = sampleFromDistribution'\( 
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output); 
从 生成 的 分 布 中 
= 采样 可 能 的 字符 


sampledCharacterIdx),; 
将 采样 的 字符 索引 
转换 为 实际 的 字符 


在 莎士比亚 文本 中 使 用 随机 字符 初始 化 输入 序列 , 然后 循环 神经 网 络 会 生成 后 续 字 符 。 窗 六 
了 文本 生成 部 分 后 ， 两 个 LSTM 隐藏 层 能 获得 更 好 的 结 

DD ...ou for Sir Cathar Will I have in Lewfork what lies... 
..., like end. OTHELLO. 1 speak on, come go’ds, and... 


..., We have berowire to my years sword; And more... 











...Oh! nor he did he see our strengh... 
... WARDEER. This graver lord. CAMILL. Would I am be... 
... WALD. Husky so shall we have said? MACBETH. She h... 

正如 所 料 , 这 次 生成 的 文本 看 起 来 比 使 用 第 一 个 LSTM 网 络 (该 网 络 只 有 一 个 隐藏 层 ) 生成 
的 文本 更 准确 。 此 时 ,你 可 能 想 知道 如 果 添 加 为 一 个 隐藏 的 LSTM 层 会 发 和 后 什么 。 结 采 会 更 好 吗 ? 
这 个 文本 生成 案例 的 完美 网 络 应 该 有 多 少 个 隐藏 展 ” 通过 答 试 使 用 具有 三 个 LSTM 隐藏 层 的 网 
络 ， 你 可 以 轻松 回答 党 一 个 问题 。 但 是 ， 对 第 二 个 问题 给 出 准确 答复 很 困难 ， 甚 至 不 可 能 。 寻 找 
最 佳 架 构 和 网 络 设置 是 一 个 复杂 的 过 程 ， 本 章 末 尾 将 讨论 如 何在 生产 环境 中 使 用 循环 神经 网 络 ， 
你 会 在 那里 找到 更 多 详细 信息 。 

使 用 与 之 前 相同 的 配置 ， 增 加 一 个 (第 三 个 ) 隐藏 的 LSTM 层 ， 示 例如 下 所 示 。 

QD ...J3K. Why, the saunt thou his died There ls hast... 

口 ...RICHERS. Ha, she will travel, Kate. Make you about... 


口 ...oOr beyond There the own smag; know it 1s that ]... 


DD DUD UD 



































DQ ...or him stepping I saw, above a world’s best fly... 

考虑 到 神经 网 络 中 所 设置 的 参数 ( 网络 层 大 小 、 序 列 大 小 、 展 开 大 小 ， 等 等 )， 添 加 第 四 个 
隐 沽 的 LSTM 层 不 会 改善 结 采 ,实际 上 ,这 样 结果 会 各 差 一 些 ( 例如 “...CHOPY. Wencome. Mylord 
‘tM times our mabultion...”)。 增 加 更 多 层 意 味 着 增加 能 力 ， 但 同时 也 增加 了 网 络 的 复杂 性 。 训 练 
需要 越 来 越 多 的 时 间 和 数据 。 有 时 仅 通过 添加 另 一 个 隐藏 层 无 法 生成 更 好 的 结果 。 在 第 9 章 中 ， 
我 们 将 讨论 一 些 平衡 计算 资源 需求 ( CPU、 数据 、 时 间 ) 和 实际 结果 准确 性 的 技术 。 


无 监督 查询 扩展 


了 解 完 基 于 LSTM 的 循环 神经 网 络 在 文学 文本 上 的 工作 方式 ,让 我 们 组 疤 一 个 网 络 来 生成 可 
选 查询 。 在 文献 示例 中 ， 之 所 以 将 文本 传递 给 循环 神经 网 络 ( 无 监督 学习 )， 是 因为 这 是 理解 和 
可 视 化 此 类 网 络 如 何 工作 的 一 种 最 人 简单 的 方法 。 现 在 ,尝试 使 用 相同 的 方法 进行 查询 扩展 。 我 们 
可 以 在 公共 资源 上 试用 它 ， 例 如 web09-bst 数据 集 ， 它 包含 来 日 实际 信息 检索 系统 的 查询 。 你 项 
望 循环 神经 网 络 学 习 生 成 的 查询 与 搜索 日 志 中 的 查询 相似 , 每 行 一 个 。 因 此 ,数据 准备 任务 包括 
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从 搜索 日 志 中 获取 所 有 查询 ， 并 将 它们 写 人 单个 文件 中 。 
以 下 是 查询 日 志 的 摘录 。 
el. THUeLLIVOnCe ,Yesuleert? 查询 部 分 由 “artificial 


size=10, ids:["doci", "doc5", ...]} intelligence” 组 成 
query:{"books about AI"}, results:t{ 


eis Te [docS™l|} | 查询 部 分 由 “books 
query:{"artificial intelligence hype"}, results:t{ about Al” 组 成 


SizZe=3, Tget [ldocl", dOGe",;, .was 
query:{"coffee"}, results:{size=100, ids:["docil13", "doc588", ...]} 
query:{"latest trends"}, results:{size=15, ids:["doc1l13", "doc23", ...]} 


仅 使 用 每 行 的 查询 部 分 ， 你 将 获得 如 下 文本 文件 。 


artificial intelligence 
books about AL 

artificial intelligence hype 
coffee 

latest trends 





工作 完成 后 , 可 以 如 3.3.3 市 所 述 , 将 其 传递 到 LSTM 网 络 。 隐藏 层 的 数量 受 各 种 条 件 约束 ， 
通常 以 两 层 为 开始 较 好 。 如 图 3-1 中 的 图 形 所 示 ， 你 将 在 查询 解析 器 中 构建 查询 扩展 算法 ， 因 此 
用 户 不 会 接触 到 可 选 查询 的 生成 。 本 例 还 需要 扩展 一 个 Lucene QueryParser， 它 的 职责 是 从 
string (在 本 例 中 是 用 户 输入 的 查询 ) 构建 一 个 Lucene Query， 如 代码 清单 3-7 所 示 。 


代码 清单 3-7 用 于 可 选 查询 扩展 的 Lucene 查询 解析 器 














查询 解析 器 将 String 〈 字 符 
串 ) 转换 为 解析 后 的 查询 ， 
public class AltQueriesQueryParser 并 在 Lucene 索引 中 运行 定制 的 查询 解析 器 使 
extends QueryParser { 用 循环 神经 网 络 生 成 
可 选 查询 








private final MultiLayerNetwork rnn; 
private Characteriterator characteriterator; 





public AltOQOueriesQueryParser (String field, Analyzer ai 
MultiLayerNetwork rnn, CharacterIiterator characterIiterator) f{ 
super (field, a);} 


this.rnn = rnn; 
mle ol elo Un eu el 初始 化 一 个 Lucene 布尔 查 
} 询 ， 用 来 包含 用 户 输 入 的 原 
始 查询 以 及 循环 神经 网 络 生 
QOverride 成 的 可 选 查询 


public Query parse (String gquery) 
BooleanQuery .Builder builder = 
new BooleanQuery .Builder ();} 
builder.add (new BooleanClause (super.parse!l 
query), BooleanClause.Occur.MUST),).; 


throws ParseException { 





为 用 户 输 入 的 查询 增加 
一 条 强制 项 该 查询 的 
结果 需要 得 到 显示 ) 
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String[] samples = sampleFromNetwork (duery ) ; 
for (String sample : samples) { 
”8 
, en | 成 一 些 样本 , 用 作 额 
外 的 查询 
return builder.build(); , . 
: 解析 循环 神经 网 络 
生成 的 文本 , 并 将 其 
private String[] sampleFromNetwork (String query) { 作为 可 选项 


// Where the "magic" happens ... < 
】 


在 水 士 比 亚 作 品 示例 中 , 这 种 


} 方法 将 查询 编码 、 进 行 循环 神 
建立 并 返回 最 终 查询 , 该 查询 是 用 户 经 网 络 预测 、 将 输出 解码 为 新 
输入 和 循环 神经 网 络 生成 的 结合 查询 








用 循环 神经 网 络 初 始 化 查询 解析 上 瘟 ， 并 使 用 它 来 构建 许多 可 选 查 询 ,， 而 这 些 查 询 可 以 作为 原 








始 查 询 附加 的 可 选项 。 所 有 的 “魔法 ”都 包含 在 从 原始 查询 生成 新 查询 字符 串 的 代码 中 。 


循环 神经 网 络 接收 用 户 输入 的 查询 作为 输入 并 产 出 新 的 查询 作为 输出 。 请 记 住 , 神经 网 络 通 


过 回 量 进行 “对 话 ”， 因 此 你 需要 将 文本 查询 转换 为 问 量 。 对 用 户 输入 的 查询 字符 执行 一 位 有 效 
编码 。 将 输入 文本 转换 为 问 量 后 ,你 可 以 对 输出 查询 一 次 采样 一 个 字符 。 回 顾 水 士 比 亚 作 品 的 例 


了 








你 做 了 以 下 事情 : 

(1) 将 用 户 输入 的 查询 编码 为 一 系列 一 位 有 效 编码 字符 向 量 ; 

(2) 将 此 序列 提供 给 网 络 ; 

(3) 获得 第 一 个 输出 字符 向 量 ， 将 其 转换 为 字符 ， 然 后 将 生成 的 字符 反 锯 到 网 络 中 

(4) 迭代 上 一 步 ， 直 到 找到 结束 字符 ( 例如 本 例 中 的 回 车 符 )。 

实际 上 , 这 意味 着 如 果 你 癌 循 环 神经 网 络 提 供 的 用 户 输入 查询 是 常用 词 项 , 循环 神经 网 络 可 




















能 会 通过 添加 相关 词 项 来 “完成 ”查询 ; 如 果 你 向 循环 神经 网 络 提 供 的 查询 看 起 来 像 已 结束 的 查 
询 ， 那 么 循环 神经 网 络 所 生成 的 查询 可 以 在 搜索 日 志 中 用 户 输入 的 查询 附近 找到 。 完 成 这 些 后 ， 
就 可 以 使 用 以 下 设置 生成 可 选 查询 ， 如 代码 清香 3-8 所 示 。 


代码 清单 3-8 ”使 用 带 有 两 个 隐 着 层 的 LSTM 网 络 尝试 AltoueriesQueryParser 


回 mini-batch 中 输入 让 循环 神经 网 络 学 习 
的 样本 的 数量 生成 新 查询 的 每 一 个 
We 输入 序列 的 长 度 

int lstmLayerSize 0 展开 的 大 小 《基于 时 间 


. 15 < AAAr ~ PI 
miniBatchSize = 10; 反 向 传播 算法 的 参数 ) 
0 循环 神经 网 络 对 样本 数 
a 据 和 迭代 的 次 数 

epochs = 1; 

int noOfHiddenLayers = 2; 
循环 袖 经 [x] 和 

double learningRate = 0.1 循环 入 经 网 络 中 LSTM 
隐藏 层 的 数量 


i 
ea 
i 
J 
i 
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及 习 速 率 梯度 下 降 
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String file = getClass() .getResource("/queries.txt") 
.getrFile().; < 包含 查询 的 源 文件 
CharacterIterator iter = new CharacterIterator (file, 
miniBatchSize, exampleLength).; x 
Xamp 9 为 查询 文件 的 文本 字符 


创建 一 个 返 代 
MultiLayerNetwork net = NeuralNetworksUtils ] 建 一 个 过 代 


.trainLST™( 
lstmLayerSize, tbpttLength, epochs, noOfHiddenLayers, iter, learningRate, 


WeightInit .XAVIER ， 
Updater .RMSPROP, 初始 化 网 络 权 重 
Activation.TANH, 的 算法 


new ScoreIterationListener(10)).; 


Analyzer analyzer = new EnglishAnalyzer (null) 
AltOueriesOQueryParser altOQueriesQueryParser = 






更 新 算法 ， 用 于 在 执行 
梯度 下 降 时 更 新 参数 











New ee ("text", 





UY 识别 查询 文本 中 词 项 的 

创建 一 个 分 数 迭 代 监 听 器 ， 分 析 颖 

用 于 在 每 10 次 迭代 (基于 时 

间 反 向 传播 ) 后 输出 损失 值 将 AltQueriesQueryParser 

| 
用 于 隐藏 层 的 激 
活 鹃 数 
String[] gqueries = new String[] {"latest trends", 
"coffee", "concerts", "music events"},; < 一 一 创建 少量 样本 查询 


for (String query : gqueries) { 
System.out .println(altOQOueriesQueryParser 





ee 打印 由 定制 解析 器 生成 
| 的 可 选 查询 
二 准 给 出 奖 句 今 小 ped 查询 “latest trends”( 最 新 趋势 ) 被 扩 
标准 输出 将 包含 以 下 内 容 。 展 成 了 一 个 更 具体 的 查询 ， 即 “trends 
Jatest trends -> (latest trends) about AI, about Al”( 洗 人 工 入 9 能 的 潮流 )， 这 增 


(latest trends) about artificial intelligence 加 了 与 人 工 智能 相关 的 结果 


coffee -> books about coffee 
Concerts -> gigs in santa monica 
music events -> concerts in California 


“music events” 的 可 选 查询 


与 原 查 询 相 同 ， 且 更 具体 





请 注意 ， 输 入 查询 和 输出 查询 之 间 不 共 至 任何 词 项 。 

生成 的 第 一 个 可 选 查询 似乎 是 原始 查询 更 具体 的 版 本 , 而 这 可 能 不 是 用 户 想 要 的 。 可 以 看 到 ， 
“latesttrends” 位 于 括号 中 , 此 时 循环 神经 网 络 正 在 生成 “about AI” 和 “about artificial intelligence” 
以 完成 句子 。 当 人 们 询问 有 关 “latesttrends” 的 一 般 性 问题 时 ， 如 果 没 有 给 出 更 多 上 下 文 (在 此 
示例 中 ,“latesttrends” 过 于 广泛 )， 查 询 解 析 各 在 生成 原始 查询 的 更 具体 版 本 时 应 谨 愤 。 如 果 不 
想 生 成 像 第 一 个 查询 那样 的 可 选 查询 , 你 可 以 使 用 技巧 回 循环 神经 网 络 提示 它 应 该 尝试 生成 一 个 
全 新 的 查询 。 你 为 循环 神经 网 络 提供 的 数据 被 切 分 为 序列 ， 每 行 一 个 , 由 回 车 符 分 隔 。 这 里 有 个 
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诀 穷 : 在 用 户 输入 的 查询 末尾 语 加 回 车 符 。 循 环 神经 网 络 用 于 观察 单词 A、 单 词 B、 单 词 C、 回 
车 符 这 样 的 序列 (或 更 确切 地 说 ,是 以 空 日 子 符 隔 开 的 字符 流 )。 回 车 符 隐 式 地 告诉 循环 神经 网 
络 , 在 回 车 符 之 前 的 文本 序列 已 结束 ,新 的 文本 序列 刚 开 始 。 如 打 你 使 用 用 户 输入 的 查询 “latest 
trends” 并 让 查询 解 析 融 在 其 末尾 添加 回 车 符 , 则 循环 神经 网 络 将 答 试 从 回 车 符 开 始 生成 新 序列 。 
这 使 得 循环 神经 网 络 生成 的 文本 更 有 可 能 像 新 查询 ， 而 不 是 原始 查询 的 更 具体 版 本 。 


3.5 ”从 无 监督 文本 生成 到 监督 文本 生成 


虽然 刚刚 看 到 的 用 于 生成 可 选 得 询 的 方法 很 好 , 但 是 你 可 能 布 望 精益 求 精 , 专注 于 提供 改变 
用 户 生 活 的 工具 。 你 布 望 确保 搜索 引擎 比 以 前 运行 得 更 好 ， 人 否则 所 有 努力 都 将 日 费 。 

在 进行 查询 扩展 时 , 循环 神经 网 络 学 习 的 方式 起 到 了 关键 作用 。 你 已 经 了 解 了 循环 神经 网 络 
如 何在 包含 许多 用 户 查 询 的 文本 文件 中 执行 无 监督 学 习 。 而 上 述 用 户 查 询 之 间 是 无 下 接 关 联 的 。 
3.1.2 市 也 提 到 了 更 复杂 的 殖 代 方 案 ， 即 创建 这 样 的 样本 ， 对 特定 输入 查询 ， 有 期 望 的 可 选 查询 。 

本 方 将 简要 介绍 使 用 两 种 算法 用 于 搜索 ( 例如 使 用 搜索 日 志 ) 的 监督 文本 生成 。 


友 列 到 序列 建 模 


你 已 经 学 习 了 LSTM 网 络 , 知道 它们 善于 处 理 序 列 。 为 生成 可 选 查询 而 进行 的 监督 学 习 , 需 
要 提供 期 望 目标 序列 ， 而 该 序列 是 基于 输入 序列 生成 的 。3.1.2 节 在 讨论 数据 准备 时 提 到 ， 可 以 
从 搜索 日 志 中 获取 训练 样本 。 

此 ， 如 果 你 有 像 “latest research in AI” 一 “recent publications in artificial intelligence” 这 样 
的 (序列 ) 对 ， 就 可 以 在 循环 神经 网 络 染 构 中 使 用 它们 ， 如 图 3-12 所 示 。 

这 样 的 输入 -输出 对 ， 循 环 神经 网 络 (或 LSTM ) 学 习 起 来 很 困难 。 在 前 文 提 到 的 无 监督 学 
习 方 法 中 ， 网 络 学 习 生 成 序列 中 的 下 一 个 字符 ， 以 便 训 练 循 环 神经 网 络 再 现 输 入 序列 。 

而 在 监督 学 习 中 正 相 反 , 你 需要 训练 神经 网 络 生成 一 系列 输出 字符 ,这 些 字 符 可 能 与 输入 字 
符 完 全 不 同 。 请 看 一 个 例子 。 如 果 有 输入 序列 “latestresea”， 那 么 你 很 容易 猜 到 下 一 个 字符 将 是 
“r”。 要 学 习 的 循环 神经 网 络 输出 将 能 够 提前 看 到 一 个 字符 。 
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J]a -> at 

lat -> ate 

late -> ates 
lates -> atest 
latest -> atest 


CE 下 


test -> atest 工 

latest r -> atest re 
latest re -> atest res 
latest res -> atest rese 
latest rese -> atest resea 


Jatest resea -> atest resear 


1a 
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第 1 层 (输入 ) 


第 2 层 


Wo 
\ 
latest research in AI 


v 


recent publications in 
artificial intelligence 


oY 


% 









目标 输出 


第 3 层 (输出 ) 


图 3-12 使 用 单个 LSTM 层 进行 监督 序列 学 习 


此 外 ， 如 琳 你 使 用 句子 “recent pub” 的 部 分 作为 目标 输出 ,循环 神经 网 络 应 该 执行 以 下 操作 。 


国人 

la -> re 

lat -> rec 

late -> rece 

lates -> recen 

latest -> recent 

test -> recent 

Lest r -> recent p 

est re -> recent pu 

est res -> recent pub 
est rese -> recent publ 
latest resea -> recent publi 
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这 项 任务 显然 要 困难 得 多 ， 因 此 现在 介绍 一 种 很 好 的 染 构 ， 它 被 称 为 序列 到 序列 (sequence- 
to-sequence ) 模型 。 该 架构 使 用 两 层 LSTM 网 络 。 
口 编码 器 ( encoder ) 将 输入 序列 作为 一 个 词 癌 量 序列 〈 不 是 字符 )。 它 生成 一 个 名 为 思维 问 
量 ( thought vector ) 的 输出 问 量 ,该 呵 量 对 应 LSTM 的 最 后 隐藏 状态 ， 而 不 是 像 之 前 的 模 
型 那样 生成 概率 分 布 。 
口 解码 器 ( decoder ) 将 思维 回 量 作为 输入 ， 并 生成 一 个 输出 序列 ， 表 示 用 于 对 输出 序列 进 
行 采 样 的 概率 分 布 。 
这 种 架构 也 称 为 seq2seq( 见 图 3-13 )， 第 7 鞋 将 更 加 详细 地 介绍 它 。 该 架构 也 可 以 用 于 执行 
机 带 翻 译 (将 用 原 语言 写成 的 序列 转换 为 目标 语言 的 相应 序列 )。seq2seq 也 经 常用 于 为 聊天 机 各 
人 构建 会 话 模型 。 在 搜索 的 上 下 文中 ， 思 维 回 量 的 概念 非常 有 趣 : 它 是 用 户 意 图 的 癌 量化 表示 。 
这 个 领域 有 很 多 研究“。 虽然 它 被 称 为 思维 向 量 , 但 循环 神经 网 络 学 习 是 基于 给 定 的 输入 和 输出 
的 。 在 这 种 情况 下 ， 如 采 输 入 是 查询 而 输出 是 兄 一 个 查询 ,， 则 思维 回 量 可 以 被 视 为 能 将 输入 查询 
映射 到 输出 查询 的 回 量 。 如 果 输 出 查询 与 输入 查询 相关 ， 则 思维 回 量 对 从 输入 查询 (用户 意 图 的 
分 布 式 表示 ) 生成 相关 可 选 查询 的 信息 进行 编码 。 


CO 解码 器 
O 
































2 ,9 
research in Al artificial intelligence hype 
思维 问 量 
图 3-13 查询 的 序列 到 序列 建 模 
因为 第 7 草 将 仔细 研究 序列 到 序列 模型 ， 所 以 本 章 将 使 用 先前 训练 的 seq2seq 模型 ， 后 者 的 








相关 输入 查询 和 期 望 输出 查询 均 是 从 搜索 日 志 中 基于 如 下 两 个 条 件 提取 的 。 

口 根据 搜索 日 志 ， 它 们 被 激发 的 时 间 有 多 接近 。 

口 他 们 是 否 共 享 至 少 一 个 搜索 结 

在 DL4J 中 ， 你 可 以 从 文件 系统 加 载 这 个 之 前 创建 的 模型 ， 并 将 其 传递 给 之 前 定义 的 
AltQueriesQueryParser。 











从 文件 中 恢复 之 
MultiLayerNetwork net = ModelSerializer 前 持久 化 的 神经 
.restoreMultiLayerNetwork ( 网 络 


"/path/to/segq2seq.zZip"); 
AltQueriesQueryParser altQueriesQueryParser = new 
AltOQOueriesOQueryParser ("text", new 
EnglishAnalyzer (null), net, null); 


用 已 实现 seq2sedq 模型 的 神经 网 络 构 建 


AltQueriesQueryParser。 注意 , 作 忆 
经 不 再 需要 CharacterIterator 














GD 更 多 例子 参见 Ryan Kiros 等 人 的 文 草 “Skip-Thought Vectors”、Shuai Tang 等 人 的 文章 “Trimming and Improving Skip- 
thought Vectors”， 以 及 Yoshua Bengio 的 文 草 “The Consciousness Prior”。 
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为 了 使 用 序列 到 序列 模型 ， 序 列 的 生成 方式 需要 进行 更 改 。 采 用 无 监督 方法 时 ， 可 以 从 输出 
概率 分 布 中 采样 字符 ; 在 本 例 中 ， 你 将 在 单词 级 从 解码 顺 LSTM 网 络 生成 序列 。 下 面 是 
AltOueryParser 使 用 seq2seq 模型 给 出 的 一 些 结果 。 








这 个 结果 第 一 眼看 上 去 可 能 很 奇怪 ， Ts 

但 芝加哥 确实 有 一 个 当代 艺术 博物 ee de eR 

4 钞 此 和 全 ns i 
锯 的 基金 会 事件 的 名 称 (尽管 蒙 茅 斯 音乐 节 在 俄 
museum of contemporary art chicago -> foundation 勒 冈 州 举办 ) 


Joshua music festival -> houston monmouth 


mattel toys -> mexican yellow shoes 
关于 儿童 玩具 的 查询 生成 了 关于 墨西哥 黄色 鞋子 的 
查询 。 如 果 是 在 圣诞 节 期 间 ， 这 将 是 一 个 很 好 的 结果 


(给 小 孩子 或 者 是 其 他 喜欢 黄色 鞋子 的 人 的 礼物 ) 


3.6 生产 系统 的 考虑 因素 


过 去 ， 训 练 循环 神经 网 络 是 乏味 的 ， 而 训练 LSTM 网 络 甚至 情况 更 糟糕 。 如 今 ， 像 DL4J 这 
样 的 框架 可 以 在 CPU 或 图 形 处 理 单元 (GPU ) 上 运行 ， 甚 至 可 以 以 分 布 式 方式 运行 〈 例 如 通过 
Apache Spark )。 其 他 框架 如 TensorFlow 则 有 专用 人 硬件 ( 张 量 处 理 单元 ，TPU ) 等 。 但 是 ， 建 立 
一 个 能 够 恨 好 运作 的 循环 神经 网 络 并 非 多 事 。 你 可 能 需要 训练 几 种 模型 , 才能 找到 最 适合 的 数据 
的 模型 。 另 外 , 配置 LSTM 不 仅 会 受到 理论 上 的 限制 , 用 于 训练 的 数据 也 会 限制 它们 在 测试 时 可 
以 做 什么 ， 例 如 把 它们 用 于 生成 未 曾 出 现 的 查询 。 

在 实践 中 , 为 了 给 无 监督 学 习 方 法 中 的 不 同 参数 提供 恨 好 的 设置 , 要 花费 几 个 小 时 的 时 间 来 
进行 试验 ， 并 且 在 该 过 程 中 会 遇 到 大 量 的 错误 。 随 独 你 关于 LSTM 网 络 〈 以 及 普通 的 神经 网 络 ) 
的 动态 变化 的 经 验 逐 步 增长 ,这 个 过 程 花 费 的 时 间 会 减少 。 例如 ， 莎士比亚 作品 的 例子 包含 的 序 
列 比 查 询 长 得 多 。 查 询 往 往 很 短 ， 平 均 长 度 为 10~50 个 字符 ， 而 来 自 《 麦 克 白 》 的 行 可 以 包含 
300 个 字符 。 因 此 ， 莎 士 比 亚 作 品 样本 〈200 个 字符 ) 的 长 度 参数 比 用 于 学 习 生 成 查询 的 样本 长 
度 参 数 ( 50 个 字符 ) 更 长 。 

同时 , 你 还 要 考虑 文本 中 的 隐藏 结构 。 来自 水 士 比 亚 喜 剧 的 文本 通常 具有 以 下 模式 : 角色 名 : 
一 些 文 本 标点 符号 回 车 符 。 而 查询 只 包括 单词 序列 和 紧 跟 其 后 的 回 车 符 。 查 询 可 以 包含 正式 
和 非 正 式 的 句子 ， 像 “myspaceeee” 这 样 的 单词 可 能 会 扰乱 循环 神经 网 络 。 因 此 ， 虽 然 水 士 比 亚 
作品 文本 只 需要 一 个 隐藏 层 就 能 提供 不 错 的 结 采 ,但 是 LSTM 网 络 至 少 需要 两 个 隐藏 层 才 能 有 效 
执行 。 

究 苋 是 对 字符 执行 无 监督 LSTM 网 络 训练 , 还 是 使 用 序列 到 序列 模型 , 这 首先 取决 于 你 拥有 
的 数据 。 如 果 无 法 生成 民 好 的 训练 样本 ( 输出 查询 是 输入 查询 的 相关 可 选 查询 )， 束 应 该 及 用 无 
监督 方法 。 该 架构 更 轻巧 ， 训 练 需 要 的 时 间 可 能 更 少 。 

值得 考虑 的 是 ,在 训练 期 间 你 应 该 跟踪 损失 值 ， 并 确保 它们 稳步 下 降 。 在 训练 无 监督 LSTM 
网 络 时 ， 可 以 通过 绘制 ScoreIterationListener (分 数 迭 代 监 听 右 ) 输出 的 值 来 查看 生成 的 
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损失 图 。 这 样 做 有 助 于 确保 训练 顺利 进行 。 如 有 果 损 失 值 开始 增加 或 在 远离 0 值 处 停止 减少 ， 则 可 
能 需要 调整 网 络 参 数 。 

最 重要 的 参数 是 学 习 速 率 。 该 值 (通常 在 0 和 1 之 间 ) 可 以 确定 梯度 下 降 算法 下 降 到 误差 较 低 
点 的 速度 。 如 果 学 习 率 太 高 (接近 1， 例 如 0.9 )， 则 会 导致 损失 开始 发 散 ( 增加 到 无 穷 大 );， 如 果 
学 习 速 率 太 低 (接近 0， 如 0.000 000 1 )， 则 梯度 下 降 到 低 误 差 的 点 需要 花费 的 时 间 可 能 太 长 。 














3 7 总 2 


口 神经 网 络 可 以 学 习 生 成 文本 ， 甚 至 是 目 然 霹 言 形式 的 文本 。 这 有 助 于 系统 在 不 需要 用 户 
介入 的 情况 下 生成 可 选 查询， 并 与 用 户 输入 的 查询 一 起 执行 ， 以 提供 更 好 的 搜索 结 

口 循环 神经 网 络 有 助 于 文本 生成 任务 ， 因 为 它们 擅长 处 理 长 文本 序列 。 

口 LSTM 网 络 是 循环 神经 网 络 的 一 种 扩展 ， 它 可 以 处 理 长 期 依赖 。 当 处 理 那 些 相 关 的 概念 
或 单词 在 句子 中 可 能 相隔 很 远 的 目 然 霹 言 文本 时 ，LSTM 网 络 比 普通 的 循环 神经 网 络 效 
采 更 好 。 

口 在 神经 网 络 中 提供 更 次 的 层 ， 可 以 提供 更 强大 的 计算 能 力 ， 而 更 强大 的 计算 能 力 是 网 络 
处 理 更 大 的 数据 集 或 更 复杂 的 模式 所 必需 的 。 

口 有 时 ， 仔 细 人 研究 神经 网 络 如 何 产 生 输 出 是 有 用 的 。 一 些小 调整 ( 如 利用 回 车 符 的 技巧 ) 
可 以 改变 结 末 的 质量 。 

口 序列 到 序列 模型 和 思维 向 量 是 监督 和 学习 中 生成 文本 序列 的 强大 工具 。 






































更 灵敏 的 查询 建议 





本 章 内 容 

D 生成 查询 建议 的 第 用 方法 
口 字符 级 神经 语言 模型 

口 神经 网 络 中 的 参数 调 优 





本 书 已 经 介绍 了 神经 网 络 的 基本 原理 , 并 解析 了 浅 层 和 深度 神经 网 络 的 构建 。 你 已 经 知 着 如 人 
何 将 神经 网 络 集成 到 搜索 引擎 中 , 从 而 通过 同义词 扩展 和 生成 可 选 查询 这 两 个 关键 功能 来 增强 搜 
索引 擎 。 这 两 个 功能 者 在 搜索 引擎 上 运行 , 可 以 使 搜索 引擎 更 加 智能 化 , 为 用 户 返 回 更 好 的 结果 。 
但 是 , 还 有 什么 方法 改进 查询 本 刁 的 措 酬 吗 ? 特别 是 , 还 有 什么 方法 可 以 帮助 用 户 编写 更 好 的 查 
询 ， 从 而 让 查询 结果 最 接近 用 户 需 求 吗 ? 

答案 当然 是 肯定 的 。 训 无 疑问 ,在 输入 查询 时 ， 人 们 习惯 使 用 搜索 引擎 提供 的 建议 。 这 项 目 
动 补 全 功能 可 以 通过 提供 能 让 查询 有 意义 的 单词 或 句子 加 快 查询 过 程 。 例 如 ， 如 果 用 户 输入 
“boo”， 则 自动 补 全 功能 会 回 用 户 提供 可 能 正在 输入 的 单词 的 其 余部 分 ， 如 “book”( 图书 ); 或 
以 “boo” 开 头 的 完整 句子 ， 如 “books about deep learning”。 帮 助 用 户 编写 查询 能 加 快 编写 速度 ， 
并 帮助 用 户 避 人 免 拼写 错误 或 其 他 错误 ,还 能 使 搜索 引 苟 器用 户 提 供 提 示 ,帮助 用 户 编写 好 的 查询 。 
该 功能 建议 的 单词 或 句子 应 该 在 用 户 编写 的 查询 上 下 文中 有 意义 。 单词 “book” 和 “boomerang” 
( 回旋 镖 ) 的 前 级 相同 ， 都 是 “boo”， 因 此 如 采用 户 开 始 输入 “boo”， 搜 索引 苟 可 能 会 建议 他 们 
选择 “book” 或 “boomerang” 来 完成 查询 。 但 是 如 果 用 户 输 入 “big parks where I can play boo”， 
显然 建议 “boomerang” 比 建议 “book” 更 有 意义 。 

通过 生成 提示 ， 目 动 补 全 可 以 影 啊 搜索 引擎 的 有 效 性 。 想 象 一 下 ， 如 条 搜索 引擎 提供 的 建议 


是 “big parks where I can play book” 而 不 是 “big parks where I can play boomerang”， 这 肯定 会 减 


少 相关 的 搜索 结果 。 

建议 功能 还 使 搜索 引擎 优先 执行 某 些 查询 〈 因 此 要 匹配 的 文档 也 得 以 优先 运行 )。 这 非常 有 
用 , 例如 可 以 用 于 推销 。 如 有 果 电 子 商务 网 站 搜索 引擎 的 所 有 者 更 想 出 售 图 书 而 不 是 回旋 镖 ， 他 们 
可 能 希望 提供 的 建议 是 “big parks where I can play book” 而 不 是 “big parks where I can play 
boomerang”。 如 果 知 道 用 户 最 党 查找 的 主题 , 他 们 可 能 希望 更 频繁 地 建议 与 这 些 重复 主题 相关 的 


词语。 
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自动 补 全 是 搜索 引擎 中 的 常见 功能 ， 它 已 经 有 很 多 创建 算法 。 在 这 里 ,神经 网 络 可 以 提供 什 
么 帮助 呢 ? 简 而 言 之 : 灵敏 度 。 一 个 灵敏 ( sensitive ) 的 查询 建议 能 准确 地 解释 用 户 正在 寻找 什 
么 , 并 以 更 有 可 能 提供 相关 结 琳 的 方式 (将 用 户 的 查询 ) 重新 措 样 。 本 草 将 以 你 对 神经 网 络 的 了 
解 为 基础 ， 使 其 能 够 生成 更 灵敏 的 查询 建议 。 


4.1 生成 查询 建议 


从 第 3 章 可 以 知道 ， 座 度 神 经 网 络 可 以 学 习 生 成 类 似 人 类 编写 的 文本 。 前 文 在 讨论 生成 可 选 
查询 时 介绍 了 这 一 点 。 本 市 中 ,你 将 看 到 如 何 使 用 和 扩展 此 类 神经 网 络 来 生成 更 好 、 更 灵敏 的 查 
询 建 议 ， 并 超越 当前 使 用 最 广泛 的 那些 日 动 补 全 算法 。 


4.1.1 编写 查询 时 的 建议 


第 2 草 讨论 了 一 个 向 见 场景 ,也 束 是 在 搜索 引擎 的 用 户 不 能 完全 回忆 起 歌曲 标题 时 ， 如 何 帮 
助 他 们 查找 歌词 。 在 这 种 情况 下 , 我 们 引入 了 同义词 扩展 技术 , 该 技术 允许 用 户 触 发 不 完整 或 不 
正确 的 查询 (例如 “music is my aircraft”)。 这 是 通过 word2vec 算法 在 后 台 扩 展 同 义 词 (“music is 
my aeroplane”) 解决 的 。 同 义 词 扩 展 是 一 种 有 用 的 技术 , 但 也 许 你 可 以 做 一 些 更 简单 的 事情 来 帮 
助 用 户 回 想起 歌曲 的 副 歌 是 “music is my aeroplane” 而 不 是 “music is my aircraft”， 方 法 是 在 用 
户 输入 查询 时 建议 正确 的 单词 。 你 也 可 以 避免 用 户 运 行 一 个 次 优 查 询 ， 因 为 他 们 已 经 知道 
“aircraft” 不 是 正确 的 单词 。 

拥有 民 好 的 目 动 补 全 算法 有 两 个 好 处: 

口 减少 查询 结果 很 少 或 为 0 的 情况 《影响 全 回 率 ); 

口 减少 相关 性 较 低 的 查询 结果 ( 影响 精确 率 )。 

如 果 建 议 ( suggester ) 算法 运行 妇 好 ， 就 不 会 输出 不 存在 的 单词 或 从 未 在 索引 数据 中 出 现 的 
词 项 。 这 意味 着 使 用 此 类 算法 建议 的 词 项 时 ， 查 询 儿 乎 不 会 返回 0 个 结果 。 请 看 “music is my 
aircraft” 的 例子 。 如 果 你 没有 启用 同义词 扩展 ， 就 可 能 找 不 到 包含 以 上 所 有 词 项 的 歌曲 。 因 此 ， 
最 好 的 结果 可 能 只 包含 “musice” 和 和 “my” 或 者 “my” 和 “aircraft”*”， 并 有 旦 这 些 结果 与 用 户 的 信 
息 需 求 相关 性 较 低 ( 因此 分 数 较 低 )。 理 想 情况 下 ， 一 旦 用 户 输 入 “music is my”， 建 议 算法 将 提 
供 提示 “aeroplane”， 因 为 这 是 搜索 引擎 已 经 见 过 (索引) 的 句子 。 

前 文 提 到 的 一 个 重点 在 生成 有 效 的 建议 方面 发 挥 了 关键 作用 : 建议 来 自 哪里 。 它 们 通常 来 日 
以 下 来 源 : 

口 用 于 建议 的 单词 或 句子 的 静态 (手动 制作 的 ) 词典 ; 

口 之 前 输入 的 查询 的 顺序 记录 (例如 从 查询 日 志 中 获取 ); 

口 从 文档 的 各 个 部 分 取得 的 索引 文档 〈 标 题 、 主 要 文本 内 容 、 作 者 ， 等 等 )。 

在 本 章 的 其 余部 分 ， 你 将 使 用 信息 检索 和 自然 语言 处 理 (NLP ) 领域 的 常用 技术 ,探索 从 这 
些 来 源 获取 建议 的 方法 。 你 还 将 看 到 这 些 建 议 与 基于 神经 网 络 语言 模型 的 建议 在 特性 和 准确 性 方 
面 的 比较 ( 神经 网 络 语言 模型 是 一 种 通过 神经 网 络 实现 的 长 期 NLP 技术 )。 
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4.1.2 ”基于 字典 的 建议 算法 


过 去 ,搜索 引擎 需要 许多 手动 实现 的 算法 。 当 时 , 一 种 常见 方法 是 构建 一 个 可 用 于 帮助 用 户 
输入 查询 的 单词 词典 。 这 些 词典 通常 只 包含 重要 的 单词 ,例如 与 某 特 定 领 域 密切 相关 的 主要 概念 。 
举 个 例子 ,乐句 商 店 的 搜索 引擎 可 能 使 用 了 包含 诸如 “guitar”( 语 )、“bass”( 风 斯 )、“drums” 
(到 ) 和 “piano”( 钢 从 ) 等 词 项 的 词典 。 通 过 手动 编 掠 把 所 有 相关 的 身 语 单词 都 编 和 词典 是 非 
党 困难 的 。 因此， 可 以 查看 查询 日 志 , 获取 用 户 输 入 的 查询 并 提取 前 1000 个 最 第 用 单词 的 列表 ， 
使 这 些 词 典 自 行 完 成 构建 ( 例如 使 用 脚本 )。 这 样 ， 依 助 频率 国信 〈 笠 好 大 多 数 情 况 下 人 们 输入 
的 查询 没有 拼写 错误 ) 就 可 以 避免 字典 中 出 现 拼 写 错 误 的 单词 。 这 种 情况 下 ， 对 于 基于 查询 历史 
的 建议 来 说 , 字典 仍然 是 一 个 很 好 的 资源 : 你 可 以 使 用 该 数据 建议 相同 的 查询 或 建议 查询 的 部 分 
内 容 。 

让 我 们 使 用 Lucene API 构建 一 个 基于 字典 的 建议 算法 ， 字典 中 的 词 项 来 自 之 前 的 查询 。 在 
本 章 内 容 的 学 习 过 程 中 ,你 将 使 用 不 同 的 数据 源 和 建议 算法 实现 此 API。 这 将 有 助 于 对 它们 进行 
比较 ， 并 根据 应 用 场景 来 评估 选用 哪 一 个 。 
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建议 和 目 动 补 全 功能 是 由 Apache Lucene 中 的 Lookup API 提供 的 。 查 找 的 全 过 程 通常 包括 
以 下 阶段 : 

口 构建 ( build ) 从 数据 源 ( 例如 字典 ) 构建 查找 ; 

口 查找 ( lookup ) 一 一 用 于 根据 字符 序列 〈 以 及 其 他 一 些 可 选 参 数 ) 提供 建议 ; 

口 重建 (rebuild ) 一 一 如 果 用 于 建议 的 数据 有 更 新 或 需要 使 用 新 的 数据 源 ， 则 重建 查找 ; 

口 存储 和 加 载 ( store and load ) 一 一 持久 化 保存 〈 例 如 以 备 将 来 再 次 使 用 ) 并 加 和 载 查 找 ( 例 

如 从 磁盘 上 以 前 保存 的 查找 中 加 载 )。 

用 字典 构建 查找 。 你 使 用 的 记录 文件 将 包含 搜索 引擎 日 志 中 记录 的 先前 输入 的 1000 个 查询 。 

该 queries.txt 文件 每 行 一 个 查询 ， 如 下 所 示 。 











popular gquizzes 

music downloads 

music lJyrics 

outerspace bedroom 

high school musical sound track 

listen to high school musical soundtrack 





可 以 从 该 纯 文本 文件 构建 一 个 Dictionary 并 将 其 传递 给 Lookup, 以 构建 基于 词典 的 建议 
党 


Lookup lookup = new JaspellLookup(); ”< 一 实例 化 Lookup 
Path path = Paths.get ("gqueries.txt").; 定位 包含 查询 的 输入 


文件 《每 行 一 条 ) 
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Dictionary dictionary = new 
PlainTextDictionary (path).;} | 创建 从 查询 文件 中 读 取 
类 gE i 引申 
lookup.build(dictionary); 加 数据 的 纯 文本 词典 
使 用 Dictionary 中 的 
数据 构建 LookuPp 


如 你 所 见 , 基于 三 分 搜索 树 ( ternary search tree, TST ) 的 Lookup 实现 被 称 为 JaspellLookup， 
包含 过 去 查询 的 词典 癌 它 提供 数据 。 如 图 4-1 所 示 ，TST 是 一 种 数据 结构 ,在 这 种 结构 中 ,字符 
串 以 树 状 方式 存储 。TST 是 一 种 特殊 的 前 缀 树 ”( prefix tree 或 trie ), 该 树 的 每 个 节点 表示 一 个 字 
符 ， 并 最 多 具有 三 个 子 节 点 。 


























AN /人 \ 
八 | 


图 4-1 三 分 搜索 树 


这 样 的 数据 结构 对 于 自动 补 全 特别 有 用 , 因为 它们 在 搜索 具有 特定 前 缀 的 字符 串 时 速度 非常 
快 ， 这 也 是 前 级 树 经 常 应 用 于 自动 补 全 的 原因 。 当 用 户 搜索 “mu” 时， 前 级 树 可 以 高 效 地 返回 
树 中 以 “mu” 开 头 的 所 有 字符 串 。 

既然 你 已 经 构建 了 第 一 个 建议 算法 ， 那 么 就 来 检验 一 下 它 的 实战 情况 。 将 查询 “musicis my 
aircraft” 拆 分 为 字母 逐渐 变 多 的 序列 ， 并 将 它们 传递 给 查找 以 获取 查询 建议 ， 并 模拟 用 户 在 搜索 
引擎 用 户 界面 中 输入 查询 的 方式 。 从 “m” 开 始 ， 然 后 是 “mu”“mus”“musi” 等 ， 看 看 你 根据 
过 去 的 查询 获得 了 什么 样 的 结果 。 要 生成 此 类 增 量 输入 ， 请 使 用 以 下 代码 。 


List<String> inputs = new LinkedList<>(); Ee 
i 和 人 和 要约 和 和 












































ie 其 结束 索引 i 增 
HouUtes ,ad La evstring(gy. 7 a 


} 


Lucene 的 Lookup# ookup API 可 以 接受 一 系列 字符 (用户 在 查询 时 的 输入 ) 和 少量 其 他 
参数 。 例 如 ,你 只 想 要 相对 常见 的 建议 (例如 在 词典 中 频繁 出 现 的 字符 串 ) 和 这 些 建 议 检 索 的 最 
大 数量 。 使 用 增 量 输入 列表 ， 你 可 以 为 每 个 这 样 的 子 字符 串 生 成 建议 。 
List<Lookup.LookupResult> lookupResults = lookup.lookup(substring, false, 2); 


对 于 给 定 的 子 字符 串 〈( 例 如 “mu”),， 使 用 Lookup 
获取 最 多 两 个 结果 , 不 考虑 其 频率 (morePopular 
设置 为 false) 




















中 一 种 树 状 数据 结构 。 一 一 译 者 注 
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你 获得 了 LOOKUDReSU 的 一 个 GliSt, 每 个 列表 都 由 一 个 OY 和 一 个 Value 组 成 ， 其 中 
Key 是 建议 字符 串 ，Value 是 该 建议 的 Weight (权重 )， 这 个 权重 可 以 被 认为 是 实现 查询 建议 
的 算法 对 相关 字符 串 的 相关 性 或 频率 的 度量 ， 因 此 其 值 可 能 根据 所 使 用 的 查找 算法 实现 而 变化 。 
看 一 下 每 个 建议 结果 及 其 权重 。 


for(Lookup.LookupResult result : lookupResults)t 
System.out .PrIntln("- > " + result.key + "(" + result.value + ")"); 











} 


如 果 将 “music is my aircraft” 生 成 的 所 有 的 子 字 符 串 传递 给 建议 算法 ， 则 结果 如 下 。 


—-—> mu 
--> mu alumn1l events 


US 





—-—> musak 
—-—> musc 


--> musi for wish you could see me now 
'mUuS1iC' 

--> music 

--> music &dvd whereeaglesdare 





'mUSiC ' 
--> music &dvd whereeaglesdare 
--> music - mfs curtains up 





'musSic 1 
--> music 1 can download for free no credit cards and music parental advisory 
--> music in atlanta 





HS: 


< 一 没有 更 多 的 查询 建议 
没有 任何 针对 “music is” 的 建议 ， 这 不 太 好 。 出 现 这 种 情况 的 原因 是 你 构建 了 一 个 仅 基于 
整个 查询 字符 串 的 查找 , 却 没 有 为 查询 建议 算法 提供 将 这 些 行 拆 分 为 较 小 文本 单元 的 手段 。 查找 
无 法 在 “music” 之 后 建议 “is”， 因 为 之 前 输入 的 查询 没有 以 “music is” 开 头 的 。 这 是 一 个 很 大 
的 局 限 。 男 外 ， 这 种 建议 算法 对 于 按时 间 顺 序 的 上 自动 补 全 来 说 很 方便 ， 用 户 在 开始 输入 新 查询 时 
就 能 看 到 他 们 过 去 输入 的 查询 。 例 如 ， 如果 算法 实现 使 用 先前 输入 查询 的 词典 , 那么 当 用 户 运 行 
的 查询 与 他 们 一 周 前 运行 的 查询 相同 时 ， 这 个 一 周 前 运行 的 查询 将 被 显示 为 建议 。 
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此 外 ， 你 可 能 还 想 做 到 以 下 的 事情 。 
D 不 仅 将 用 户 过 去 输入 过 的 整个 字符 串 作 为 建议 ， 还 将 过 去 查询 过 的 单词 (例如 “music 
“is”“my” 和 “aircraft”) 作为 建议 。 
口 即使 用 户 输 入 的 单词 位 于 先前 输入 的 查询 字符 串 中 间 ， 也 将 该 查询 字符 串 作 为 建议 。 例 
如 ， 之 前 的 方法 给 出 的 查询 建议 是 以 用 户 输入 的 内 容 为 开头 的 查询 字符 串 ， 但 是 你 希望 
在 用 户 输入 “my a” 时 ， 能 给 出 查询 建议 “music is my aircraft ” 。 
口 建议 的 单词 序列 在 语法 上 和 语义 上 应 该 是 正确 的 ， 即 使 以 前 没有 任何 用 户 输入 过 这 上 段 序 
列 也 应 该 如 此 。 
建议 算法 应 该 能 够 生成 自然 语言 ， 从 而 帮助 用 户 编写 更 好 的 查询 。 
口 让 查询 建议 与 来 自 搜索 引擎 的 数据 一 致 ， 因 为 对 于 用 户 来 说 ， 其 查询 结果 得 到 空 的 列表 
是 非常 令 人 注 丧 的 。 
口 当 查 询 可 能 的 解释 涵盖 了 不 同 的 领域 时 ， 帮 助 用 户 消除 卜 义 。 
想象 一 下 “neuron connectivity”( 神经 元 连接 ) 这 样 的 查询 。 该 查询 可 能 涉及 神经 科学 和 人 
工 神 经 网 络 领域 。 提 示 用 户 这 样 的 查询 可 能 会 涉及 完全 不 同 的 领域 , 并 让 他 们 在 触发 查询 之 前 过 
滤 结 采 会 很 有 帮助 。 
接 下 来 ， 我 们 将 人 研究 这 些 要 点 ， 并 了 解 与 其 他 技术 相 比 ， 神 经 网 络 如 何 获得 更 准确 的 建议 。 


4.3 分析 后 的 建议 算法 


考虑 在 网 络 搜索 引擎 中 输入 查询 的 情景 。 在 许多 情况 下 , 你 不 知 拓 所 要 写 下 的 完整 查询 是 怎 
样 的 。 多 年 以 前 的 情况 并 非 如 此 , 因为 当时 大 多 数 网 络 搜索 是 基于 关键 字 的 , 人 们 必须 提前 考虑 : 
“为 了 获得 相关 的 搜索 结果 ， 我 必须 寻找 哪些 最 重要 的 单词 ? ” 相 比 今天 ， 采 用 这 种 搜索 方式 需 
要 更 多 的 答 试 也 会 遇 到 更 多 错误 。 如 今 优 秀 的 网 络 搜索 引擎 会 在 用 户 输入 查询 时 提供 有 用 的 提 
示 。 通 常 ， 人 们 输入 查询 ， 查 看 引 苟 提示 的 查询 建议 ,选择 其 中 之 一 并 得 到 查询 结果 ， 然 后 再 次 
输入 ， 寻 找 其 他 查询 建议 ， 选 择 另 一 个 ， 等 等 。 

来 进行 一 个 简单 的 试验 ， 查 看 在 谷歌 搜索 引擎 上 搜索 “books about search and deep learning” 
时 得 到 的 建议 。 在 键入 “book” 时 ， 建 议 的 结 采 比较 常见 ， 如 图 4-2 所 示 ( 结 采 不 出 意料 ， 因 为 
“book” 在 各 种 上 下 文中 可 能 有 很 多 不 同 的 含义 )。 其 中 一 条 建议 是 关于 在 意大利 ( 罗马 、 伊 斯 基 
亚 、 撤 丁 岛 、 佛 罗 伦 陛 、 医 扎 岛 ) 度假 的 预订 。 在 这 个 阶段 ， 这 种 方法 与 前 文中 使 用 Lucene 通 
过 基于 词典 的 算法 创建 的 建议 没有 太 大 差别 : 给 出 的 所 有 建议 都 以 “book” 开 头 。 
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Coodgle 


ltalia 


book 


= 


booking 

booking roma 
booking extranet 
book 

booking ischia 
bookingshow 
booking sardegna 
booking firenze 
booking voli 
booking ponza 


图 4-2 “book” 的 建议 
此 时 不 选择 任何 建议 , 因为 它们 都 与 搜索 意图 无 关 。 接 下 来 继续 输入 “books about sear”( 见 4 


\y00gle 


ltalia 


{> 


books about sear| 


books about search engine optimization 
books about searching for identity 
books about search and rescue 

books about search and rescue dogs 
books about search engines 

books about google search 

books about executive search 

books search engine 

books search engine pdf 

books search 


图 4-3 “books about sear” 的 建议 


这 些 建议 变 得 更 有 意义 ， 也 更 接近 搜索 目的 ， 虽 然 前 面 的 几 个 搜索 结果 不 相关 : books about 
search engine optimization 、books about searching for identity、books about search and rescue。 其 中 
第 五 条 建议 是 最 接近 的 。 有 趣 的 是 ， 查 询 还 得 到 以 下 内 容 。 

D 插入 词 ( infix ) 建议 (在 原始 字符 串 的 两 个 现存 词素 之 间 插 入 新 词素 ,作为 建议 字符 串 )。 

在 建议 “books about google search” 中 “google” 一 词 位 于 输入 查询 中 “about” 和 “sear” 
之 则 。 记 住 这 一 点 ， 因 为 后 续 你 将 实现 这 一 点 ， 现 在 暂时 跳 过 它 。 
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口 有 些 建议 忽略 了 “about” 这 个 词 (最 后 三 条 建议 ,，“books search..”)。 同 样 记 住 ， 你 可 以 
在 提供 建议 时 丢弃 查询 中 的 某 些 词 项 。 

选择 “books about search engines” 这 一 建议 ， 并 输入 “and” 后 得 到 的 结果 如 图 4-4 所 示 。 
观察 结果 ， 你 可 能 发 现 涵盖 搜索 引擎 和 深度 和 学习 这 两 个 主题 的 图 书 并 不 多 : 没有 一 条 建议 提示 
“deep learning”。 更 重要 的 是 ， 建 议 算法 似乎 在 进行 提示 时 丢弃 了 一 些 查 询 文 本 。 在 建议 框 中 ， 
结果 全 部 以 “engine and” 开 头 。 但 这 可 能 是 用 户 界面 的 问题 ， 因 为 建议 似乎 是 准确 的 : 它们 不 
是 关于 通常 的 引 敬 (如 汽车 引擎 ) 的 ， 而 是 清楚 地 指 辐 搜索 引擎 。 以 下 是 要 记 住 的 另 一 个 观点 : 
在 查询 文本 变 得 更 长 时 ， 你 可 能 需要 丢弃 一 些 查 询 文 本 。 


NU LI 


ltalia 











-到 


books about search engines and 


engine and optimization 

engine and download 

engine and privacy 
engine and deep web 

engine and meta search engine 
engine and types 

engine and examples 

engine and how it works 

engine and database 

engine and example 


图 4-4 “books about search engines and” 的 建议 


接 下 来 继续 尝试 。 最 后 的 建议 ( 如 图 4-5 所 示 ) 是 最 初 打算 输入 的 查询 。 它 只 有 一 点 小 小 的 
修改 ; 原本 打算 输入 的 是 “books about search and deep learning”， 而 得 到 的 建议 是 “books about 
search engines and deep learning 。 


ATLGIIO 


-ee 


books about search engines and dee 


engine and deep web 

engine and deep web onion 
engine and deep web tor unato 
engine and deep internet 

engine and deep web reddit 
engine and deeper 

engine and deepsearch 

engine and deep learning 


图 4-$ 对 “books about search engines and dee” 的 建议 


此 次 实验 的 目的 并 非 演示 谷歌 搜索 引擎 如 何 实现 上 月 动 补 全 功能 , 而 是 希望 在 使 用 自动 补 全 时 
观察 一 些 可 能 性 : 

口 对 单个 单词 ( “book”) 的 建议 ; 

口 对 多 个 单词 (“search engines”) 的 建议 ; 
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口 对 整个 短语 的 建议 。 

这 有 助 于 推理 和 决定 实践 中 什么 内 容 对 搜索 引 敬 应 用 程序 有 用 。 

除了 建议 的 粒度 (单个 词 、 多 个 词 、 句 子 , 等 等 ) 之 外 , 还 可 以 观察 到 一 些 建议 具有 以 下 特征 : 

口 从 查询 中 删除 了 单词 (“books search engines”); 

口 插入 词 建议 (“books about google search”); 

口 删除 前 级 (“books about” 不 是 最 终 建 议 的 一 部 分 )。 

通过 将 文本 分 析 应 用 在 输入 查询 以 及 用 于 构建 建议 算法 的 字典 数据 上 , 以 上 所 有 功能 以 
及 其 他 功能 一 一 都 有 可 能 实现 。 例 如 ， 可 以 使 用 信用 词 过 滤 需 删除 某 些 词 项 ; 或 者 ,可 以 将 长 查 
询 分 成 多 个 子 序 列 , 并 使 用 以 特定 长 度 切 分 文本 流 的 过 滤 郑 为 每 个 子 序 列 生成 建议 。 这 很 符合 文 
本 分 析 在 搜索 引擎 中 受到 大 量 使 用 的 事实 。Lucene 有 一 个 名 为 AnalyzingSuggester 的 查找 
( lookup ) 实现 。 在 构建 查找 ， 以 及 随后 将 一 段 文 本 传递 给 查找 以 获取 建议 时 ， 都 不 再 依赖 固定 
的 数据 结构 ， 而 是 使 用 文本 分 析 来 定义 文本 的 操作 方式 。 


构建 查找 时 ， 使 用 standardaAnalyzer 
ee 删除 停 用 词 ， 并 遇 到 空白 时 拆 分 词素 
new StandardAnalyzer () ; 
Analyzer suggestTimeAnalyzer = 当 你 查找 建议 时 ， 使 用 与 
mem GtardaroAna ly ert)s 构建 时 相同 的 分 析 器 
































Directory dir = FSDirectory.openl 
Paths.get ("suggestDirectory")); 





尔 瑟 好 晶 { 寺 一 八 一 。 
AnalyzingSuggester lookup = new AnalyzingSuggester ( 伯 需要 在 文件 系统 上 提供 | 和 
ip 相交 本 下 让 Dullarineanelser; 因为 analyzingsuggester 在 内 部 使 用 它 


suggestTimeAna FZ er)); 来 创建 所 需 的 数据 结构 以 生成 建议 
创建 一 


个 Analyzing Suggester 实例 


在 构建 和 查找 时 可 以 使 用 单独 的 Analyzer 来 创建 nalyzingSuggester， 这 使 你 可 以 在 
设置 建议 算法 时 充满 创意 。 

在 内 部 ， 这 种 查找 的 实现 可 以 使 用 有 限 状 态 转 换 器 ( finite state transducer，FST )。FST 是 一 
种 数据 结构 ， 在 Lucene 中 有 几 处 应 用 。 你 可 以 将 FST 视 为 一 个 图 形 ， 其 中 每 条 边 与 一 个 字符 关 
联 ， 并 且 可 以 选择 性 地 与 权重 关联 ( 见 图 4-6 )。 








图 4-6 ”有限 状态 转换 天 
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在 构建 阶段 ， 来 自 构建 分 析 器 应 用 于 词典 条 目 时 产生 的 所 有 可 能 的 建议 都 被 编译 成 一 个 大 
FST。 在 查询 时 ， 使 用 (已 分 析 过 的 ) 输入 查询 遍历 FST 将 生成 所 有 可 能 的 路 径 ， 其 输出 结果 是 
建议 字符 申 。 


US 


一 一 > JUSC 


--> musi 

--> musi for wish you could see me now 
'mUuS1iC' 

--> music 

--> muSicC' 

muUSIC ' 

--> music' 

--> music by the the 

'musSic 1 
--> music 1 can download for free no credit cards and music parental advisory 
--> music industry careers 

'musSic 1S， 

--> music' 

--> music by the the 





--> music,'! 

= i ES te 在 壳 历 到 这 点 时 ， 基 于 
SS 字典 的 建议 算法 无 法 
'music 1S mo’! 提供 建议 


--> music by mack taunton 
--> music that matters 


'music 1S my' 

--> music of my heart by nicole c mullen 
--> music in my life by bette midler 

在 志 历 到 这 点 时 ， 基 于 
字典 的 建议 算法 无 法 
提供 超过 该 点 的 建议 





'music js my < 
--> music of my heart by nicole c mullen 





--> music in my life by bette midler 





'music js my a 
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--> music of my heart by nicole c mullen 
--> music in my life by bette midler 


'music is my ai' 


< 一 没有 更 多 的 建议 

之 前 ， 基 于 三 分 搜索 树 的 建议 算法 在 遇 到 “music is” 时 停止 给 出 建议 ， 这 是 因为 词典 中 没 
有 条 目 以 “music js” 开头。 但 是 ， 虽 然 词 典 是 相同 的 ， 这 个 分 析 后 的 建议 算法 却 能 够 提供 更 多 
建议 。 

在 查询 为 “music is” 时 ， 因 为 词 亲 “music” 与 一 些 建议 匹配 ， 所 以 可 以 得 到 相关 结果 ， 即 
使 对 “is” 没 有 给 出 任何 建议 ， 也 是 如 此 。 更 有 趣 的 是 ， 当 查询 变 为 “music is my” 时 ， 一 些 建 
议 同 时 包含 “musice” 和 “my”。 但 是 ， 如 果 不 匹 配 的 词素 过 多 (从 “music is my ai” 开 始 )， 查 
找 将 停止 提供 建议 , 因为 这 些 建议 可 能 与 给 定 查 询 的 关联 性 太 差 。 这 里 不 仅 对 上 述 实 现 进行 了 显 
着 改进 ， 同 时 还 解决 了 一 个 问题 ， 即 可 以 基于 单个 词素 ， 而 不 仪 仪 是 整个 字符 串 来 提供 建议 。 

你 还 可 以 使 用 Analyzingsuggester 稍微 修改 后 的 版 本 来 增强 这 项 功能 , 该 版 本 可 以 更 好 
地 使 用 插入 词 建议 。 


AnalyzinglinfixSuggester lJookup = new AnalyzingIinfixSuggester (dir, 
buildTimeAnalyzer, lookupTimeAnalyzer, ... ); 


使 用 此 插入 词 建议 算法 ,可 以 获得 更 好 的 结果 。 




















--> 2007 s550 mercedes 
--> 2007 qualifying times for the boston marathon 


--> 2007 nissan murano 
--> 2007 mustang rims com 


--> 2007 mustang rims com 
--> 2007 mustang 


你 不 会 得 到 以 “m” “mu” 或 “mus” 开 头 的 结果 ， 相 反 ， 这 些 序列 被 用 于 匹配 字符 串 中 最 
重要 的 部 分 , 如 “2007 s550 mercedes”“2007 qualifying times for the boston marathon”“2007 nissan 
murano” 和 “2007 mustang rims com”。 另 一 个 明显 的 区 别 是 ， 词 素 匹 配 可 以 发 生 在 建议 的 中 间 ， 
这 就 是 它 被 称 为 插入 词 的 原因 。 

‘music is my， 


--> 1990's music for myspace 
--> words to music my humps 











'music js my 
--> words to music my humps 
--> Where can 1 upload my music 
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'music js my a 
--> words to music my humps 
--> Where can 1 upload my music 


使 用 AnalyzingInfixsuggester， 就 可 以 获得 插入 词 建议 。 它 接受 输入 序列 ， 并 对 其 进 
行 分 析 ， 以 便 创 建 词 素 ， 然 后 根据 任意 此 类 词素 的 前 绥 匹 配 来 对 建议 进行 匹配 。 但 是 ,还 有 一 些 
工作 要 做 : 让 建议 更 接近 存储 在 搜索 引擎 中 的 数据 ; 让 建议 看 起 来 更 像 目 然 语 言 ; 以 及 当 两 个 词 
具有 不 同 的 含义 时 更 好 地 消除 区 义 。 此 外 ， 你 在 开始 输入 “aircraft” 时 不 会 得 到 任何 建议 ， 因 为 
没有 足够 的 词素 来 匹配 。 

你 对 如 何 提供 好 的 建议 已 经 有 了 一 些 经 验 , 接 下 来 本 曹 将 讨论 语言 模型 。 你 将 首先 探索 通过 
目 然 语 言 处 理 实现 的 模型 ( n-gram )， 然 后 研究 那些 通过 神经 网 络 实现 的 模型 (神经 语言 模型 )。 


4.4 使 用 语言 模型 


前 面部 分 显示 的 建议 中 ， 有 一 些 文本 序列 没有 什么 意义 ,例如 “music by the the”。 这 是 因为 
你 提供 的 数据 来 自 先 前 输入 的 查询 ， 而 在 某 些 查询 中 ， 用 户 错误 地 输入 了 两 次 “the”。 此 外 ,你 
还 提供 了 包含 整个 查询 的 建议 。 虽然 这 在 希望 使 用 目 动 补 全 功能 返回 以 前 查询 的 整个 文本 时 很 好 
用 (在 在 线 书 店 中 搜索 图 书 时 这 可 能 很 有 用 )， 但 它 不 适用 于 编写 新 查询 。 

在 大 中 型 搜索 引擎 中 , 搜索 日 志 包 含 大 量 不 同 的 查询 。 由 于 搜索 日 志 这 种 文本 序列 数量 庞大 
日 极 具 多 样 性 ， 因 此 很 难 提出 良好 的 建议 算法 。 例 如 ， 如 果 查 看 web09-bst 数据 集 ， 你 会 发 现 诸 
如 “hobbs police department”“ipod file sharing” 和 “liz taylor’s biography” 这 样 的 查询 。 这 些 查 
询 看 起 来 很 好 ， 可 以 用 作 建 议 算法 的 来 源 。 男 外 ， 你 也 可 以 找到 像 “hhhhh”“hqwebdev” 和 
“hhhthootdithuinshithins” 这 样 的 查询 。 用 户 可 不 希望 建议 算法 提供 这 样 的 建议 。 过 滤 掉 “hhhh” 
这 样 的 查询 不 是 问题 , 它 可 以 通过 删除 包含 三 个 或 更 多 相同 连续 字符 的 所 有 行 或 单词 从 数据 集中 
清除 。 而 过 滤 挥 “hqwebdev” 这 样 的 查询 就 困难 得 多 ， 因 为 它 包 含 “webdev”( “web developer” 
的 缩写 )， 前 级 为 “hq”。 这 样 的 查询 可 能 是 有 意义 的 (例如 有 一 个 带 有 此 名 称 的 网 站 ), 但 是 对 
用 于 一 般 目 的 的 建议 算法 ， 人 们 不 希望 使 用 过 于 特定 的 建议 。 真 正 的 挑战 在 于 处 理 多 样 性 文本 
( diverse text ) 序列 ， 其 中 一 些 序列 可 能 没有 意义 ， 因 为 它们 太 过 特殊 ， 以 至 于 很 少 出 现 。 解决 此 
问题 的 一 种 方法 是 使 用 语言 模型 ( language model )。 







































































语言 模型 
在 自然 语言 处 理 中 , 语言 模型 的 主要 任务 是 预测 特定 文本 序列 的 概率 。 概 率 是 度量 特定 事 
件 发 生 的 可 能 性 的 指标 ， 它 的 范围 为 0~1。 因 此 ,采用 上 述 的 奇怪 查询 “music by the the”"， 并 
将 其 传递 给 语言 模型 ， 将 得 到 一 个 很 低 的 概 认 (例如 0.05 )。 语 言 模 型 表示 概率 分 布 ， 因 此 能 
帮助 预测 特定 上 下 文中 某 个 单词 或 字符 序列 的 可 能 性 。 语 言 模 型 可 以 帮助 排除 不 太 可 能 ( 低 概 
率 ) 的 序列 、 生 成 之 前 没 出 现 过 的 单词 序列 ， 因 为 它们 旨 在 捕获 最 有 可 能 的 序列 (即使 它们 可 
能 没有 出 现在 文本 中 )。 
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语言 模型 通常 通过 计算 n-gram 的 概率 来 实现 。 


n-gram (n 元 语法 ) 
一 个 n-gram 是 由 n 个 连续 单元 组 成 的 字符 序列 ， 其 中 每 个 单元 可 以 是 字符 (“a”“b” 
“0? ) 或 是 单词 (“music”“is” “my”…… )。 想 架 一 个 n-gram 语言 模型 (使 用 单词 作为 
一 个 单元 )， 其 中 n=2。n=2 的 n-gram 被 称 为 二 元 组 (bigram )，n=3 的 n-gram 被 称 为 三 元 组 
(trigram )。 一 个 二 元 组 语言 模型 可 以 估计 “music concert” 或 “music sofa” 这 样 的 单词 对 的 概 
率 。 一 个 好 的 语言 模型 为 双 元 组 “music concert ”分 配 的 概 浴 应 该 比 双 元 组 “music sofa” 的 概 
率 更 高 。 


在 实现 方面 要 注意 ， 对 一 个 语言 模型 而 言 ，( 一 系列 ) n-gram 的 概率 可 以 用 多 种 方式 计算 。 
这 些 计 算 方 法 大 多 数 依赖 马尔 可 夫 假 设 ( Markov assumption )， 即 未 来 事件 的 概率 ( 例如 下 一 个 
字符 或 单词 ) 仅 取决 于 有 关 先 前 事件 〈 字 符 或 单词 ) 的 有 限 历 史 。 因 此 ,使 用 n=2 的 n-gram 模 
型 | 也 称 为 二 元 模型 (bigram model ) | 给 定 当 前 单词 时 ， 下 一 个 单词 的 概率 是 通过 计算 两 个 单词 
“music is” 的 出 现 次 数 并 将 该 结果 除 以 当前 单词 (“music”) 的 出 现 次 数 得 出 的 。 例 如 ， 给 定 当 
前 单词 “music”, 下 一 个 单词 是 “is” 的 概率 可 以 写作 plislmusic)。 已 知 一 个 包含 2 个 以 上 单词 
的 序列 ， 要 计算 下 一 个 单词 的 概率 。 例 如 ， 给 定 “music is my”， 求 “aeroplane” 的 概率 ， 则 需 
要 将 该 句子 切 分 成 二 元 组 ， 计 算 所 有 二 元 组 的 概率 ， 并 将 它们 相 乘 ， 如 下 所 示 。 

p(music 1s my aeroplane)=p(is|muslic) x P(mylis) x p(aeroplanelmy) 

作为 参考 ， 许 多 n-gram 语言 模型 使 用 更 高 级 一 些 的 方法 ， 称 为 Stupid Backoff?。 这 种 方法 首 

尝试 计算 n 值 更 高 ( 例如 n=3 ) 的 n-gram 概率 ， 如 果 数 据 中 不 存在 具有 当前 n 的 n-gram， 就 递归 

地 回 退 到 更 小 的 n-gram 概率 ( 例如 n=2 )。 由 于 这 种 后 退 概 率 会 打折 扣 ， 因 此 来 自 较 大 的 n-gram 的 
概率 对 整体 概率 测量 具有 更 积极 的 影响 。Lucene 有 一 个 基于 n-gram 的 语言 模型 查找 ， 名 为 
FreeTextSuggester， 它 可 以 使 用 分 析 带 来 决定 如 何 分 割 n-gram， 如 下 所 示 。 


Lookup lookup = new FreeTextSuggester (new WhitespaceAnalyzer()); 









































请 观察 它 在 实战 中 的 表现 。 将 nn 设置 为 2， 查 询 “music is my aircraft”。 


ET 

—-—-> music 
--> museum 
TG 

-> music 


GD 参见 Thorsten Brants 等 人 的 文章 “Large Language Models in Machine Translation”。 
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--> museum 
ImUSLIL' 

-> music 

--> musical 
TTS Ce! 

-> music 

--> musical 

"MUSTG 2 

--> music video 
--> music for 
'muUuSic i! 

--> music in 

--> music industry 
'imusic igs'! 

--> ijslangd 

--> music jis 


对 “music is m” 的 一 条 建 
议 ， 它 与 期 望 的 查询 (“is 
Oy my”) 提前 匹配 一 个 字符 
--> lis my 

--> lis missing 


'music js my' 

--> 1S my 

--> is myspace 对 “music is my” 的 建议 (“my 
space”“my life”) 不 是 你 想 要 的 ， 

'music is my ， 但 看 上 去 不 错 
--> my Space 

--> my life 


'music js my a 

-—-> my account 

和 对 “music is my ai” 的 建议 不 是 很 
好 (“my aim”“air”)， 但 更 接近 你 


想 要 的 


'music is my air' 
一 一 > air 

--> airport 对 “musicis my airc” 的 建议 提前 匹配 4 个 
字符 〈“aircraft")， 并 组 成 了 一 个 有 趣 的 名 


子 (“aircondittioning ， 空 调 ) 


'music js my airc' 
-—> alircraft 
--> alirconditioning 
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'music is my aircr' 
-—> aircraft 
--> aircraftbarnstormer.com 








好 的 方面 是 ， 基 于 语言 模型 的 建议 算法 总 会 给 出 建议 。 哪 人 怕 给 出 的 建议 不 是 那么 准确 ， 只 要 
最 终 用 户 收 到 建议 ， 就 比 什么 都 没有 好 。 这 比 之 前 提 到 的 方法 更 有 优势 。 最 重要 的 是 ， 用 户 可 以 
从 “music” 开 始 看 到 建议 流 。 


说 明 你 可 能 想 知道 基于 双 元 组 的 模型 如 何 根据 单词 的 一 部 分 预测 整个 单词 。 与 Analyzing- 
Suggester 类 似 ，FreeTextSuggester 从 n-gram 构建 有 限 状 态 转换 器 。 


使 用 n-gram 语言 模型 ， 可 以 生成 诸如 “musicis my space”“music is my life” 其 至 “music is 
my air conditioning” 等 查询 。 因 为 这 些 查 询 没 有 出 现在 搜索 日 志 中 ,所 以 生成 新 闻 序 列 的 目标 已 
经 达成 。 但 是 ， 由 于 n-gram 的 性 质 是 一 个 固定 的 词素 序列 ， 所 以 该 模型 没有 为 较 长 的 查询 提供 
完整 的 建议 。 因 此 在 最 后 阶段 的 建议 中 ， 不 包括 “music is my aircraft”， 只 包括 “aircraft”。 这 不 
定 是 坏事 ， 但 它 突出 了 这 样 一 个 事实 : 这 种 n-gram 语言 模型 不 易 准确 计算 出 长 句 的 概率 ， 
此 它们 可 能 会 提出 一 些 奇 怪 的 建议 ， 比 如 “music is my airconditioning”。 
刚刚 介绍 的 所 有 内 容 都 与 现 有 的 生成 建议 的 方法 有 关 。 本 书 硕 望 你 先 看 到 这 些 方法 所 有 的 影 
啊 因 素 ， 再 深入 研究 神经 语言 模型 ， 而 这 些 神经 语言 模型 聚合 了 这 些 方法 中 的 每 一 种 。 到 目前 为 
止 ， 本 章 忽 略 了 这 些 模型 的 一 个 缺点 : 它们 逢 要 手动 编 掠 的 词典 。 如 word2vec 的 例子 所 示 ， 这 
在 实践 中 是 无 法 人 忍受 的 。 人 们 需要 的 解决 方案 应 该 能 够 月 动 适应 变化 的 数据 ， 而 无 顷 手动 干预 。 
为 此 , 可 以 使 用 搜索 引擎 给 建议 算法 提供 数据 。 用 这 些 数据 生成 的 建议 将 以 索引 内 容 为 基础 。 如 
采 文 档 已 被 索引 ， 则 建议 算法 也 需要 更 新 。4.5 方 将 介绍 这 些 基于 内 容 的 建议 算法 。 


4.5 ”基于 内 容 的 建议 算法 


在 使 用 基于 内 容 ( content-based ) 的 建议 算法 时 ， 内 容 直 接 来 自 搜 过 引擎。 考虑 一 下 在 线 书 
店 的 搜索 引 苟 。 用户 搜索 图 书 标题 或 作者 的 频率 很 可 能 远 高 于 搜索 图 书 正文 的 频率 。 被 索引 的 每 
本 书 都 有 单独 的 字段 用 于 标题 、 作 者 ， 最 后 才 是 正文 文本 。 此 外 ， 当 新 书 被 索引 、 旧 书 停止 出 版 
时 ,你 需要 将 新 文档 添加 到 搜索 引 苟 中， 并 删除 关于 停止 销售 的 图 书 的 文档 。 对 于 建议 而 言 也 是 
这 样 : 你 不 希望 建议 中 缺少 新 书 的 书 名 ， 也 不 希望 建议 中 出 现 已 经 停止 销售 的 图 书 的 书 名 。 

因此 ,建议 算法 必须 保持 更 新 。 如 果 从 索引 中 删除 了 某 文档 ， 建 议 算 法 虽然 可 以 保留 从 该 文 
档 构 建 的 建议 ,但 是 这 些 建 议 可 能 没什么 用 人 处 ,假设 已 经 索引 T 了 两 本 书 :Lucenein Action 和 OAuth2 
in Action。 一 个 只 使 用 来 日 书 名 的 文本 的 建议 算法 ， 其 建议 将 基于 以 下 (小写 ) 词素 :“lucene” 
“in”“action”“oauth2”。 如 果 你 删除 了 Lucene in Action 这 本 书 ， 那 么 词汇 列表 将 被 缩减 为 “iD” 
“action”“oauth2”。 你 可 以 把 “lucene” 词 素 留 在 建议 算法 里 。 这 种 情况 下 ， 如 果 用 户 输 入 “ 工 ”， 
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则 建议 算法 将 建议 “lucene”。 这 里 有 个 问题 ,针对 “lucene” 的 查询 不 会 返回 任何 结果 。 这 就 是 
为 什么 应 该 在 搜索 时 从 建议 算法 中 删除 匹配 不 到 结果 的 词 项 。 

你 可 以 访问 包含 图 书 标题 数据 的 倒 排 索 引 , 并 像 使 用 况 态 字典 中 的 行 一 样 使 用 这 些 词 项 。 在 
Lucene 中 , 可 以 使 用 DocumentDictionary 回 查 找 提 供 索 引 中 的 数据 。 DocumentDictionary 
从 搜索 引擎 ， 特 别 是 IndexReader (〈 某 个 时 间 点 的 搜索 引擎 的 视图 ) 中 谈 取 数据 ， 并 将 一 个 字 
段 用 于 抓 取 词 项 ( 用 于 建议 )， 另 一 个 字段 用 于 计算 建议 的 权重 〈 建 议 的 重要 程度 )。 

根据 已 索引 到 搜索 引擎 中 title 字段 的 数据 来 构建 一 个 词典 。 那 些 分 数 更 高 的 标题 会 得 到 
更 大 的 权重 。 分 数 较 高 的 图 书 的 建议 将 优先 显示 。 


IndexReader reader = DirectoryReader.open!( 














di 七 2 E 
ee 获取 搜索 引擎 上 的 视图 (一 
个 ' 
Dictionary dictionary = new DocumentDictionary ( 站 IndexReader 对 象 ) 
reader, "LILlLe"，"ratlInd" ) ， 
lookup.build(dictionary); ee Me 
根据 标题 字段 的 内 容 创建 
使 用 索引 中 的 数据 构建 查找 ， 一 个 字典 ， 并 让 分 数 决 定 
就 像 使 用 静态 字典 一 样 建议 的 权重 








你 可 以 引导 用 户 选择 你 而 望 他 们 找到 的 搜索 结果 一 一 例如 , 作为 书店 的 老板 , 你 可 能 更 愿意 
展示 分 数 较 高 的 书 。 其 他 促进 建议 的 指标 可 能 与 价格 有 关 , 这 样 用 户 就 能 更 频 索 地 得 到 关于 那些 
价格 较 高 或 较 低 的 图 书 的 建议 。 

现在 ， 你 已 经 从 搜索 引 警 中 获取 了 建议 的 数据 , 可 以 痢 手 研究 神经 语言 模型 。 和 希望 这 些 模型 
能 够 将 目前 为 止 讨论 过 的 方法 所 有 好 的 方面 结合 在 一 起 , 并 且 提高 准确 率 , 使 编 与 的 查询 更 像 人 
类 的 输入 。 


4.6 ”神经 语言 模型 


神经 语言 模型 应 该 具有 与 其 他 类 型 的 语言 模型 ( 如 n-gram 模型 ) 相同 的 功能 。 区 别 在 于 其 
学 会 预测 概率 的 方式 ， 以 及 预测 效果 能 提升 多 少 。 第 3 草 介 绍 了 一 种 用 于 再 现 莎 士 比 亚 作品 文本 
的 循环 神经 网 络 (RNN )。 第 3 章 关 注 的 是 RNN 的 工作 原理 , 但 实际 上 是 在 建立 一 个 字符 级 的 神 
经 语言 模型 ( character-level neural language model )。 如 前 文 所 述 ，RNN 非常 擅长 以 一 种 无 监督 的 
方式 学 习 文 本 序列 ， 因 此 它们 可 以 基于 之 前 出 现 过 的 序列 生成 民 好 的 新 序列 。 语言 模型 学 习 为 文 
本 序列 获取 准确 的 概率 ， 因 此 这 看 起 来 非常 适合 RNN。 

接 下 来 从 一 个 简单 的 、 非 深度 的 ， 并 且 实 现 了 一 个 字符 级 语言 模型 的 RNN 开始 。 在 给 定 输 
人 字符 序列 的 情况 下 ， 该 模型 将 预测 所 有 可 能 输出 字符 的 概率 。 下 面 将 其 可 视 化 。 

LanguageModel lm = ... 

for (char c : chars) { 


System.out .printlin("mus" + C+ ":" + jm.getProbs ("mus"+c));} 


】 
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musa:0.01 
musb:0.003 
musc:0.02 
musd:0.005 
muse:0.02 
musf:0.001 
musg:0.0005 
I SHS 


musi:... 








前 面 提 到 ， 神 经 网 络 使 用 回 量 作为 输入 和 输出 。 在 第 3 革 中 ， 用 于 文本 生成 的 RNN 为 每 一 
个 可 能 的 输出 字符 生成 一 个 包含 实数 (0 和 1 之 间 ) 的 向 量 。 这 个 实数 表示 从 网 络 中 输出 该 字符 
的 概率 。 前 面 还 提 到 ， 生 成 概率 分 布 〈 在 本 例 中 是 所 有 可 能 字符 的 概率 ) 是 由 softmax 因数 完 
成 的 。 已 知 输出 层 的 作用 , 你 可 以 在 神经 网 络 中 间 添 加 一 个 循环 层 ， 以 及 一 个 用 于 回 网 络 发 送 输 








入 字符 的 输入 层 。 其 中 ， 循 环 层 的 职责 是 记 住 前 面 出 现 过 的 序列 。 结 果 如 网 4-7 所 示 。 本 
第 2 层 
(隐藏 循环 层 ) 


过 省 
\ 


\ 


4 


大 庆 4 让 第 3 层 
rs ZR (给 出 度 ) 


图 4-7 学 习 序 列 的 RNN 


第 3 章 在 生成 可 选 查询 时 ， 使 用 DL4J 配置 了 这 样 一 个 网 络 ， 如 下 所 示 。 
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殷 藏 层 的 大 小 
int layerSize = 50; |? 茂 技 的 大 


Int sequenceSize = chars.length(); < 一 输入 与 输出 的 大 小 


int unrollSize = 100 
RNN 展开 的 步 数 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 

.layer(0, new LSTM.Builder() .nIin(sequenceSize) .nOut (layerSize) 
.Aactivation(Activation.TANH) .build()) 

.layer(1, new RnnOutputLayer.Builder (LossFunction.MCXENT) .activation'\( 
Activation.SOFTMAX) .nin(layerSize) .nOut (sequenceSize) .build()) 

.backpropType (BackpropType.TruncatedBPTT) .tBPTTForwardLength (unrollSize) 
.tBPTTBackwardLength (unrollSize) 

.build(); 


尽管 基本 架构 是 相同 的 〈 具 有 一 个 或 多 个 隐藏 层 的 LSTM 网 络 ), 但 是 这 里 的 目标 与 你 在 生 
成 可 选 查 询 例子 中 想 要 达到 的 目标 不 同 。 在 可 选 查询 中 ， 人 们 需要 RNN 获取 一 个 查询 并 输出 一 
个 新 的 查询 。 在 本 例 中 ， 人 们 希望 在 用 户 完 成 输入 查询 之 前 ，RNN 为 这 个 查询 预测 到 一 个 良好 
的 完整 查询 。 这 与 用 于 生成 莎士比亚 作品 文本 的 RNN 架构 完全 相同 。 


4.7 基于 字符 的 神经 语言 建议 模型 


在 第 3 革 中 ， 你 问 RNN 提供 了 一 个 characterIterator， 用 于 遍历 文件 中 的 字符 。 到 目 
前 为 止 , 你 已 经 能 从 文本 文件 构建 建议 。 因 为 计划 将 神经 网 络 作 为 工具 来 帮助 搜索 引擎 ， 所 以 提 
供给 搜索 引擎 的 数据 应 该 来 目 搜 索引 擎 本 和 刁 。 首 先 ， 索 3 引 Hot 100 Billboard 数据 集 。 
IndexWriter 将 文档 放 入 索引 


IndexWriter writer = new IndexWriter(directory, new IndexWriterConfig()).; 



































for (String line : 
IOUtils.readLines (getClass() .getResourceAsStream("/billboargd lyrics 1964 


0 16. Ga 读 取 交 每 一 行 
ER JJ 本 | 读 取 数据 集 的 每 一 行 ， 


一 \ 劾 __4 二 
if (1!line.startsWith("\"R")) { 从 一 们 
不 使 用 
Z| 立 R2 士 ' ， ' L nm mn). 大 一 /一 1: 三口 [= AN 
关 部 结 String[] fields = line.split(",").,; 文件 中 每 一 行 都 有 以 逗号 分 隔 的 以 
构 行 Document doc = new Document (); 下 属性 : Rank (排序 )、Song ( 歌 名 )、 


doc.add (new TextField("rank", fields[0], Artist (艺术 家 )、Year (年 份 )、 Lyrics 
0 (歌词 )、Source 〈 源 ) 


doc.add (new TextField("song", fields[1], 


Fieldq.Store.YES) ) ; 将 歌曲 的 排序 索引 到 一 个 专用 字 


段 中 含 其 是 否 被 存储 标记 值 ) 





doc.add (new TextField("artist", fields[2], 
Field.Store.YES)); 

将 歌曲 的 标题 索引 到 一 个 专用 字 

doc.add (new TextField("lyrics", fields[3], 段 中 含 其 是 否 被 存储 标记 值 ) 
Field.Store.YES)); 





\ 将 歌词 家 引 到 个 “将 所 放 该 歌曲 的 艺术 家 家 引 到 一 个 专用 
writer.addDocument (doc); 用 子 段 《 含 其 是 | 字段 中 〈 含 其 是 否 被 存储 标记 值 ) 
} 将 创建 的 Lucene 否 被 存储 标记 值 ) 
中 


文档 添加 到 索引 
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} 
writer.commit(); 
将 索引 持久 化 保存 
到 文件 系统 中 


可 以 使 用 索引 数据 构建 一 个 基于 字符 LSTM 的 查找 实现 charLSTMNeuralLookup。 与 
FreeTextSuggester 类 似 ， CharLSTMNeuralLookup 也 可 以 通过 DocumentDictionary 来 


接收 输入 。 





创建 一 个 DocumentDictionary， 


其 内 容 从 索引 的 歌词 中 获取 


Dictionary dictionary = new DocumentDictionary (reader, "lyrics", null); 
Lookup lookup = new CharLSTMNeuralLookup(...); | 
M 


lookup.build(dictionary); 、 
ee 和 训练 基于 charLsT 
的 查找 


DocumentDictionary 将 从 | 字段 获取 文本 ,为 了 实例 化 CharLSTMNeuralLookup, 
需要 将 网 络 配 置 作为 构造 函数 参数 传递 ， 以 便 完成 下 列 工 作 : 

口 在 构建 阶段 ，LSTM 遍历 Lucene 文档 值 的 字符 ， 并 学 习 生 成 类 似 的 序列 ; 

D 在 运行 阶段 ，LSTM 将 根据 用 户 已 经 编写 的 查询 部 分 生成 字符 。 

完成 前 面 的 代码 后 ，charLSTMNeuralLookup 构造 图 数 需 要 构建 和 训练 LSTM 的 参数 。 


lstmLayerSize = 100; 

miniBatchSize = 40; 

exampleLength = 1000; 

tbpttLength = 50; 

numEpochs = 10; 

noOfHiddenLayers = 1; 

double learningRate = 0.1; 

WeightInit weightIinit = WeightInit .XAVIER; 
Updater updater = Updater.RMSPROP; 
Activation activation = Activation.TANH; 


基于 charLSTM 
创建 查找 











(人 














Lookup lookup = new CharLSTMNeuralLLookup (StmLayerS1lze，mlnliBatcnhSlze， 
exampleLength, tbpttLength, numEpochs, noOfHiddenLayers, 
learningRate, weightIinit, updater, activation); 


如 前 文 所 述 , 神经 网 络 需 要 大 量 的 数据 才能 产生 民 好 的 结 采 。 在 选择 如 何 配 置 神经 网 络 来 处 
理 这 些 数据 集 时 要 小 心 。 特别 是 有 些 配 置 能 够 使 神经 网 络 在 一 个 数据 集 上 很 好 地 工作 , 却 不 能 使 
其 在 为 一 个 数据 集 上 得 到 相同 质量 的 结果 。 在 考虑 训练 样本 的 数量 与 神经 网 络 要 学 习 的 权重 的 数 
量 时 ,样本 的 数量 应 该 总 是 大 于 可 学 习 参 数 ( 即 神经 网 络 权 重 ) 的 数量 。 

如 果 有 一 个 MultiLayerNetwork 和 一 个 DataSet， 则 可 以 对 二 者 进行 比较 。 

















MultiLayerNetwork net = new MultiLayerNetwork(...); 

DataSet dataset = ...; 

System.out.println("params :" + net.numPparams () + 
+ dataset.numExamples ()); 


," examples: " 
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我 们 还 没有 考虑 的 另 一 个 方面 是 网 络 权重 的 初始 化 〈initialization )。 在 开始 训练 一 个 神经 网 
络 时 , 权重 的 初始 值 应 是 多 少 ? 将 所 有 权重 初始 值 设 置 为 相同 的 随机 值 可 不 是 好 主意 ( 全 设置 为 
0 甚至 更 糟 )。 权 重 初 始 化 方 条 对 于 神经 网 络 的 快速 学 习 能 力 至 关 重 要 。 在 这 种 情况 下 ， 良 好 的 
权重 初始 化 方案 是 NORMAL 初始 化 和 xAVIER 初始 化 。 以 上 两 者 都 是 具有 一 定性 质 的 概率 分 布 ， 
DL4J 参考 手册 介绍 了 它们 。 

为 了 预测 神经 网 络 的 输出 , 可 以 使 用 与 生成 可 选 查询 相同 的 代码 。 因 为 这 个 LSTM 网 络 在 字 


符 级 上 车 | 以 每 次 输 一 个 学 符 。 
符 级 上 工作 ， 所 以 每 次 输出 一 个 字符 对 给 出 的 输入 字符 (向 量 ) 
预测 概率 分 布 


int sampledCharacterIidx = sampleFromDistribution'l( 











INDArray output = network.rnnTimeStep (input).; 


SE DE)S 从 生成 的 分 布 中 抽 
一 个 三 Et A 之 4 
char C = characterIiterator.convertIindexToCharacterl 2 
sampledCharacterIidx);} 将 采样 到 的 字符 的 索引 
转换 为 实际 字符 


现在 可 以 使 用 神经 语言 模型 实现 Lookup#Lookup API。 神 经 语言 模型 有 一 个 底层 神经 网 络 
和 一 个 对 和 象 字符 迭代 和 右 ( CharacterIterator )， 而 该 迭代 絮 查 阅 用 于 训练 的 数据 集 。 查 阅 该 
数据 集 主 要 是 为 了 一 位 有 效 编码 映射 , 例如 你 需要 有 能 力 重 建 对 应 某 个 一 位 有 效 编码 辣 量 的 是 哪 
个 字符 ， 反 之 亦 然 。 


public class CharLSTMNeuralLookup extends Lookup { 











private Characteriterator characteriterator; 
private MultiLayerNetwork network; 


public CharLSTMNeuralLookup (MultiLayerNetwork net, 
CharacterIiterator iter) { 
network = net; 
characterIiterator = iter; 


} 给 定 用 户 输入 的 字符 串 ， 从 网 络 
中 采样 num 个 文本 序列 
QOverride 


public List<LookupResult> lookup (CharSequence key, 
boolean onlyMorePopular, int num) throws IOException f{ 
List<LookupResult> results = new 
LinkedList<>();} 








\ 尾 士 
准备 结果 Map<String, Double> output = NeuralNetworksUtils 
列表 .SampleFromNetwork (network, characterIiterator, 
key.toString(), num); 
for (Map.Entry<String, Double> entry : output.entrySet()) f{ 


results.add (new LookupResult (entry.getKey () ， 


a 将 采样 输出 添加 到 结果 列表 中 , 使 用 
} 它们 的 概率 (来自 softmax 国 数 ) 
return results; 作为 建议 权重 

} 
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CharLSTMNeuralLookup 还 需要 实现 构建 API。 这 就 是 神经 网 络 将 要 进行 训练 (或 反复 训 
练 ) 的 位 置 。 


IndexReader reader = DirectoryReader.open (directory),; 
Dictionary dictionary = new DocumentDictionary (reader., 





"lyrices", "rank"); 
lookup.build (dictionary); 从 歌词 字段 中 提取 用 
于 建议 的 文本 ， 根 据 
歌曲 的 排序 值 加 权 


为 字符 LSTM 使 用 Characterlterator ， 所 以 要 将 Dictionary 中 的 数据 (一 个 
lnputliterator 对 象 ) 转换 到 Chnaracterlterator 中 ， 并 将 其 传递 给 神经 网 络 训练 (副作用 
是 ， 和 人 磁 和 盟 上 会 有 一 个 临时 文件 ， 用 来 保存 从 训练 网 络 的 索引 中 提取 的 数据 )。 

从 Lucene 索引 的 1yrics 字段 获 


创建 一 个 临时 文件 取 文 本 (考虑 到 性 能 ，Lucene 使 


用 BytesRef 代替 string) 





QOverride 
public void build(Dictionary dictionary) throws IOException { 
Path tempFile = Files.createTempFile("chars", 
"七 XE 
FileOutputStream outputStream = new FileOutputStream(tempFile.toFilel()); 
for (BytesRef surfaceForm; (surfaceForm = dictionary 











.getInputIterator() .next()) != null;) { 
到 OutpPuUtSttream.wrltel(sSurfaceFornm.pbpytes) ; 释放 用 于 写 入 临时 
te 文件 的 资源 
临时 文件 outputStream.flush().; 
outputStream.close();} 创建 一 个 characterIterator 
characterIiterator = new CharacterIiterator (temprFile (使 用 charLsTMNeuralLookup 
-tOABDSoLUtePatht) .toString(),, mnieatohgigye, 配置 参数 ) 
exampleLength).;} 





this.network = NeuralNetworksUtils.trainLST™( 
lstmLayerSize, tbpttLength, numEpochs, noOfHiddenLayers, ...);} 








FileUtils.forceDeleteOnFxit (tempFile.toFilel()).; 删除 临时 
示 1R、 
文件 
构建 和 训练 LSTM (使 用 charLsTMNeuralLookup 
配置 参数 ) 





在 继续 下 一 步 并 在 搜索 应 用 程序 中 使 用 此 Lookup 之 前 , 需要 确保 神经 语言 模型 工作 良好 并 
能 够 给 出 良好 的 结果 。 就 像 计算 机 科学 中 的 其 他 算法 一 样 ， 神 经 网 络 并 非 灵 丹 妙药 , 如 果 想 让 它 
们 工作 良好 ， 就 需要 正确 地 设置 它们 。 
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不 同 于 第 3 章 ， 此 时 不 必 回 网 络 添加 更 多 的 层 ， 而 是 从 简单 的 一 层 开始 ,调整 其 他 参数 ， 并 
观察 一 层 是 否 足 够 。 这 样 做 最 重要 的 原因 是 ， 随 春 网 络 复 杂 性 的 增加 《〈 例如 层 数 增加 )， 生 成 一 
个 好 模型 ( 能 产生 好 的 结 末 ) 所 需 的 数据 和 时 间 也 会 增加 。 因 此 ,尽管 小 型 浅 层 网 络 无 法 胜 过 具 
有 大 量 不 同 数 据 的 深层 网 络 , 但 是 这 个 语言 建 模 示 例 提供 了 一 个 很 好 的 机 会 , 让 你 可 以 学 习 如 何 
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从 简单 的 网 络 开 始 ， 并 只 在 需要 时 将 其 加 次 。 

在 更 多 地 使 用 神经 网 络 后 ,你 会 知道 如 何 将 其 设置 和 调整 到 最 佳 状态 。 现 在 你 知道 ， 当 数据 
庞大 且 多 样 时 ， 使 用 一 个 用 于 语言 建 模 的 次 度 循环 神经 网 络 可 能 是 一 个 好 主意 。 但 是 ， 驳 务实 一 
点 ， 检验 一 下 这 是 不 是 真 的 。 为 此 ,你 需要 一 种 方法 来 评价 神经 网 络 的 学 习 过 程 。 神 经 网 络 训练 
是 一 个 优化 问题 ( optimization problem ), 需要 优化 神经 元 之 间 连 接 的 权重 ,让 它们 产生 想 要 的 结 
末 。 在 实践 中 , 这 意味 痢 根 据 所 选 的 权重 初始 化 方案 ,在 每 一 层 设 置 一 组 初始 权重 。 在 训练 期 间 
对 这 些 权 重 进 行 调整 , 使 网 络 在 试图 预测 输出 时 的 误差 随 着 训练 进行 而 逐渐 减少 。 如 有 果 网 络 的 误 
差 不 减 反 增 ， 那 么 设置 就 出 错 了 。 第 3 革 介 绍 了 用 于 度量 这 种 误差 的 代价 函数 cost functions )， 
事实 上 神经 网 络 训练 算法 的 目标 正 是 最 小 化 这 些 代价 函数 .度量 训练 质量 的 一 种 好 方法 是 绘制 网 络 
代价 (或 损失 ) 随时 间 变 化 的 曲线 ， 并 确保 随 看 反问 传播 的 进行 ， 网 络 代价 ( 或 损失 ) 不 断 下 降 。 

为 了 确保 神经 语言 模型 给 出 好 的 结果 ， 需 要 跟踪 代价 是 否 降 低 。 对 DL4J 而 言 ， 可 以 像 第 3 
章 中 使 用 ScoreIterationListener( 将 损失 记录 在 日 志 里 ) 那 样 ， 使 用 TrainingListeners 
或 者 更 好 的 监听 种， 比如 statsListener。 它 们 有 合适 的 用 户 界 面 (UI)， 可 以 收集 并 向 远程 
服务 硕 发 送 数 据 ， 有 助 于 更 好 地 监控 学 习 过 程 。 图 4-8 显示 了 这 样 的 服务 硕 如 何 显示 学 习 过 程 。 























Model Score vs. Iteration Model and Training Information 





图 4-8 DL4J 训 练 用 户 界面 


DL4J 训练 用 户 界 面 的 概览 页 面包 含 了 很 多 关于 训练 过 程 的 信息 。 现在 , 关注 左上 角 的 Model 
Score vs. Iteration 面板 。 随 着 时 间 的 推移 ， 迭 代 次 数 不 断 增加 ， 分 数 应 该 下 降 ， 在 理想 情况 下 应 
该 接近 于 0。 在 右上 角 的 Model and Training Information 面板 ， 可 以 看 到 一 些 关 于 网 络 参 数 和 训 
练 速度 的 大 人 致 信息 。 此 处 对 底部 的 图 不 加 详 述 ， 因 为 它们 显示 了 参数 的 大 小 ( 比如 权重 ) 以 及 它 
们 随时 间 变 化 的 情况 等 过 于 详细 的 信息 。 

设置 这 个 用 户 界 面 很 容易 ， 如 下 所 示 。 
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> 门 力 公 mm >| + 出 
UIServer uiServer = UIlIServer.getinstance(); 4 ] 初始 化 用 户 前 面 后 端 


StatsStorage statsStorage = new InMemoryStatsStorage().; 








uiServer.attach (statsStorage);} 


配置 要 存储 网 络 信 息 的 
将 Statsstorage 实例 附加 到 UI， 以 人 更 位 置 ， 本 例 中 是 记忆 
显示 StatsStorage 的 内 容 


配置 好 并 启动 用 户 界 面 服务 紫 后 , 就 可 以 告诉 神经 网 络 通 过 添加 statsListener 回 它 发 送 
统计 信息 OQ 


神经 网 络 监控 
MultiLayerNetwork net = new MultiLayerNetwork (conf).,; 
net .init (); 





初始 化 网 络 “例如 设置 
net.setListeners (new StatsListener(statsStorage)); 层 中 的 初始 权重 ) 


net .fi () < 一 一 开始 训练 
使 用 StatsListener 


训练 一 开始 ， 就 可 以 从 Web 浏览 器 通过 http://localhost:9000 访问 DL4J 训练 用 户 界面 。 这 样 

了 怠 可 以 看 到 Overview ( 概览 ) 页面 。 4 
先 从 一 个 具有 两 个 隐藏 层 的 字符 LSTM 开始 ,通过 查看 DL4J 训练 用 户 界 面 来 了 解 它 如 何在 

查询 数据 集 上 运行 。 如 图 4-9 所 示 ， 随 看 迭代 次 数 的 增加 ， 分 数 下 降 得 很 少 ， 这 意味 着 可 能 不 会 

得 到 好 的 结果 。 有 一 种 常见 错误 是 过 度 设计 神经 网 络 : 从 两 个 300 维 的 隐藏 层 开 始 ， 维 数 可 能 太 

多 了 。 本 章 之 前 提 到 过 ， 要 学 习 的 权重 不 应 该 比 训 练 样本 多 。 请 再 次 检查 日 志 。 

















INEO o.d.n.m.MultiLayerNetwork - Starting MultiLayerNetwork ... 
INFO c.m.d.u.NeuralNetworksUtils - params :1.197.977, examples: 77.141 
INFO o.d.o0o.1.ScorelIterationListener - Score at iteration 0 is 174.1792 
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Total Parameters 559877 
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Total Runtime 
Last Update 7 0 10:33 
Total Parameter Updates 
Updates/sec 5 
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Score : 39.50244, Iteration : 718 
Update:Parameter Ratios (Mean Magnitudes): log1o Standard Deviations: log10 Updates Gradients Activations 
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图 4-9 有 2 个 隐藏 层 (每 个 隐藏 层 300 个 神经 元 ) 的 字符 级 LSTM 神经 语言 模型 
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训练 样本 的 数量 约 为 要 学 习 的 参数 数量 的 6%。 正 因为 如 此 ， 训 练 不 太 可 能 得 到 一 套 好 的 权 
重 。 数 据 不 够 1 

此 时 ,要 么 获取 更 多 的 数据 ， 要么 使 用 更 简单 、 要 学 习 的 参数 更 少 的 神经 网 络 。 假 设 无 法 做 
到 前 者 ， 那 就 选择 后 者 : 配置 一 个 更 简单 、 更 小 的 神经 网 络 ， 它 有 一 个 包含 80 个 神经 元 的 隐藏 
屋 。 青 次 检查 日 志 。 


INFO o.d.n.m.MultiLayerNetwork - Starting MultiLayerNetwork ... 
INFO c.m.d.u.NeuralNetworksUtils - params :56.797, examples: 77.141 
INFO o.d.o0o.1.ScorelterationListener - Score at iteration 0 1S 173.4444 


图 4-10 展示 了 更 好 的 损失 曲线 。 昌 然 终 点 并 不 接近 0, 但 它 总 体 呈 平稳 下 降 趋 势 。 然 而 ， 原 
本 的 目标 是 使 最 终 损失 值 稳定 地 接近 0。 无 论 如 何 ， 现 在 用 查询 “music is my aircraft” 来 测试 该 
网 络 。 可 以 预期 ， 该 测试 将 得 到 次 优 结 果 ， 因 为 神经 网 络 没有 找到 一 个 低 损 失 的 权重 组 合 。 


--> musorida hosking floa 
--> miesxams reald 20 











Model Score Vs. iteration 


200 a0( 60( 200 1000 1200 1400 
Score : -13.16277, Iteration : 888 


Update:Parameter Ratios (Mean Magnitudes): 1og10 Standard Deviations: Ic 


一 
Pe 





图 4-10 一 个 隐藏 层 (80 个 神经 元 ) 的 字符 级 LSTM 神经 语言 模型 
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这 些 结果 比 以 前 那些 不 基于 神经 网 络 的 解决 方案 更 糟 . 将 第 一 个 神经 语言 模型 的 结果 与 来 目 


n-gram 语言 模型 和 AnalyzingSuggester 的 结 
是 给 出 结果 ， 但 很 多 结果 没有 多 大 意义 。 








进行 比较 。 表 4-1 显示 ， 虽 然 神经 语言 模型 总 
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表 4-1 建议 结果 


输 入 神经 网 络 n-gram 分 析 
“mm” musorida hosking floa my m 
“musie” music tents in sauraborls music music 
“music is” music island knS$ stendattion island music 
(44 . . .99 . . . g 

music is my ai music is my alrborty cioderopaship my alm 
“music is my aircr” music is my aircrichs of nwire aircraft 


“music tents in sauraborls” 中 的 “sauraborls” 是 什么 ? “music island kn5 stendattion” 中 的 
“stendattion” 又 是 什么 呢 ? 随 着 要 预测 的 文本 长 度 增加 ,神经 声言 模型 开始 返回 不 能 形成 有 意义 
的 单词 学 符 序 列 , 这 意味 着 它 无 法 良好 地 佑 计较 长 输入 的 概率 。 这 正 是 你 在 观察 学 习 曲 线 后 所 预 
测 到 的 。 

因为 希望 网 络 能 够 更 好 地 学 习 ， 所 以 需要 观察 在 为 神经 网 络 设置 训练 时 最 重要 的 配置 参数 
之 一 一 一 学 习 率 ( learning rate )。 学 习 率 定义 了 神经 网 络 的 权重 随 〈 梯度 ) 代价 的 变化 量 。 较 高 
的 学 习 率 可 能 导致 神经 网 络 永远 找 不 到 一 组 好 的 权重 值 , 因为 权重 值 可 能 因 变 化 太 多 而 永远 找 不 
到 好 的 组 合 。 较 低 的 学 习 率 可 能 会 大 大 降低 学 习 速 度 , 以 至 于 在 使 用 所 有 数据 进行 学 习 之 前 找 不 
到 一 组 好 的 权重 。 

把 这 一 层 的 神经 元 数量 稍微 增加 一 些 ， 增 加 到 90 个 ， 然 后 再 次 开始 训练 。 
































INEO o.d.n.m.MultiLayerNetwork - Starting MultiLayerNetwork ... 
INFO c.m.d.u.NeuralNetworksUtils - params :67.487, examples: 77.141 
INFO o.d.o0o.1.ScorelIterationListener - Score at iteration 0 1S 173.9821 


此 时 神经 网 络 参数 的 数量 略 小 于 可 用 的 训练 样本 的 数量 , 因此 后 续 不 应 添加 更 多 的 参数 。 当 
训练 完成 时 ， 得 到 查找 结 琳 。 


oT 
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'music is my aircraf' 
--> music is my aircraft in star 
--> music is my aircraft bouble 


'music is my aircraft' 
--> music is my aircraft 
--> music is my aircraftless theatre 


建议 结果 的 质量 已 经 有 所 提高 。 许 多 建议 是 由 正确 的 英语 单词 组 成 的 ,其 中 一 些 甚至 很 有 趣 ， 
比如 “music is my aircraft popper” 和 “music is my aircraftless theatre”。 上 再 来 看 一 下 刚刚 训练 好 的 
神经 语言 模型 的 Overview 选项 卡 ( 见 图 4-11 )。 
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图 4-11 更 多 的 参数 ， 但 仍然 是 次 优 收 敛 





损失 减少 的 效果 更 好 , 但 仍然 没有 达到 足够 小 的 值 ， 因 此 学 习 率 可 能 还 没有 设置 正确 。 可 以 
通过 将 学 习 率 设置 为 更 高 的 值 来 改善 损失 减少 的 效果 。 图 4-11 中 的 学 习 率 是 0.1， 现 在 尝试 把 它 
设置 为 0.4， 这 是 一 个 非常 高 的 值 。 图 4-12 显示 了 再 次 训练 的 结 
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Model Score vs. Iteration 


500 1000 1500 2000 2500 
Score : 166.74906, Iteration : 1398 
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0.0 0.0 
0_RW 
画 1_RW 
和 -0.5 


| 外 Wi A -1.0 





图 4-12 ” 调 高 学 习 率 后 
结果 表明 ,该 方法 得 出 的 结果 损失 更 低 ,， 并且, 神经 网 络 为 了 得 到 这 个 结果 使 用 了 更 多 的 参 





数 。 这 意味 着 它 了 解 了 更 多 训练 数据 的 信息 。 我 们 到 此 结束 ， 并 对 这 些 输 出 感到 满意 。 
训练 要 达到 最 优 , 就 需要 更 多 迭代 , 调整 其 他 参数 可 能 会 得 到 形状 更 好 的 曲线 和 可 该 性 更 高 
的 建议 。 本 书 的 最 后 一 草 将 进一步 讨论 神经 网 络 调 优 。 


4.9 使 用 词 通 入 使 建议 多 梓 化 


第 2 章 展 示 了 在 同义词 扩展 中 , 词 艇 人 是 多 么 有 用 。 本 市 将 展示 如 何 将 它们 与 LSTM 生成 的 
建议 结果 结合 使 用 ， 从 而 为 用 户 提供 更 加 多 样 化 的 建议 。 在 生产 系统 中 ,将 不 同 模 型 的 结果 组 合 
起 来 以 提供 良好 的 用 户 体 验 十 分 常见 。word2vec 模型 允许 创建 单词 的 癌 量 化 表示 。 一 个 浅 层 神经 
网 络 通过 观察 每 个 单词 周围 的 环境 (其 他 近邻 单词 ) 来 学 习 这 些 回 量 。word2vec 和 将 单词 表示 为 
器 量 的 类 似 算法 的 好 处 是 ， 它 们 将 相似 的 单词 紧 挨 着 放 在 癌 量 空间 中 ,例如 表示 “aircraft” 和 和 
“aeroplane” 的 问 量 将 非常 接近 。 

接 下 来 从 包含 歌词 的 Lucene 索引 中 构建 一 个 word2vec 模型 ， 这 与 第 2 章 中 类 似 。 
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CharacterIiterator iterator = 

















MultiLayerNetwork network = ... 在 Lucene Lyrics 字 
段 的 内 容 上 创建 一 
FieldValuesSentenceIterator iterator = new DataSetIterator 
FieldValuesSentencelterator (reader, "lyrics"),; 
Word2Vec vec = new Word2Vec.Builder() 
.layerSize(100) 
.iterate (iterator) 使 用 大 小 为 100 的 词 向 
.build(); 量 配置 word2vec 模型 
Ew 使 用 之 前 训练 过 的 LSTM、 
CharacterIterator 和 
Lookup lookup = new CharLSTMWord2VecLookup (network, word2vec 模型 构建 神经 语 


言 模型 


iterator, vec).;: 


执行 word2vec 模型 训练 


基于 相同 数据 训练 word2vec 模型 后 ， 现 在 可 以 将 其 与 cnarLsTMNeuralLookup 相 结 合 ， 
并 生成 更 多 建议 。 你 :将 定义 一 个 CharLSTMWord2VecLookup 类 2 它 是 CharLSTMNeuralLookup 
类 的 扩展 。 这 个 查找 实现 需要 一 个 Word2vVec 实例 。 在 查找 时 ， 它 玫 历 LSTM 建议 的 字符 串 ， 
然后 使 用 word2vec 模型 为 字符 串 中 的 每 个 单词 查找 最 近邻 单词 。 这 些 最 近邻 单词 可 以 用 于 创建 
一 个 新 的 建议 ,例如 , LSTM 生成 的 序列 “music is my aircraft ”将 被 分 解 为 词素 "music” “is”“my” 
和 “aircraft”。word2vec 模型 将 进行 检查 ， 例 如 与 “aircraft” 最 近邻 的 单词 ， 找 到 “aeroplane ”， 
然后 创建 附加 的 建议 “music is my aeroplane”， 如 代码 清单 4-1 所 示 。 


代码 清单 4-1 用 Word2vVec 扩展 神经 语言 模型 


public class CharLSTMWord2VecLookup extends CharLSTMNeuralLookup { 


























private final Word2Vec word2Vec; 





public CharLSTMWord2VecLookup (MultiLayerNetwork net, 
Characterliterator iter, Word2Vec word2Vec) { 
super (net, iter),; 
this.word2Vec = word2Vec; 


QOverride 
public List<LookupResult> lookup (CharSeduence key, Set<BytesRef> contexts, 
boolean onlyMorePopular, int num) throws IOFException { 
Set<LookupResult> results = Sets. 
newCopyOnWriteArraySet (super.lookup (key, 
contexts, onlyMorePopular, num) ); 











获取 由 LSTM 网 络 
for (LookupResult lr : results) { 生成 的 建议 


String suggestionString = lr.key.toString(); 
for (String word : word2Vec. 





getTokenizerFactory() .create( 
suggestionString) .getTokens()) { 将 建议 字符 串 划 分 
Collection<String> nearestWords = word2Vec ee ne 
为 词素 (单词 ) 
.WordsNearest (word, 2); 
找到 每 个 词素 for (String nearestWord : nearestWords) { 
的 前 两 个 最 近 If (word2Vec.similarity (word, nearestWord) 


邻 的 单词 07 对 于 每 个 最 近邻 的 单词 ， 


检查 它 与 输入 的 单词 是 否 
足够 相似 


results.addAll (enhanceSuggestion(1r., 
word, nearestWord)).; < 一 
} 
} 使 用 word2vec 建 
} 议 的 单词 创建 更 好 
} 的 建议 
return new ArrayList<>(results);} 


} 





private Collection<LookupResult> enhanceSuggestion (LookupResult lr, 
String word, String nearestWord) { 
return Collections.singletonList (new LookupResult\( 
lr.key.toString() .replace (word, nearestWord), 


(long) (lr.value * 0.7))); 
} 对 建议 优化 的 简单 实现 : 用 最 
近邻 的 单词 替代 原始 单词 

回 到 第 2 章 的 开头 ， 用 户 想 要 找到 一 首 歌 的 歌词 ， 但 他 想 不 起 这 首 歌 的 名 字 。 用 word2vec 
同义词 扩展 模型 即使 查询 与 标题 不 匹配 ， 也 可 以 通过 生成 同义词 返回 正确 的 歌曲 。 神 经 语言 模 
型 和 word2vec 模型 相 结 合生 成 的 建议 , 能 让 用 户 在 搜索 时 不 必 输 入 完整 的 查询 .用 户 输入 “music 
is my airc...” 得 到 了 建议 “music is my aeroplane”， 因 此 虽然 没有 实际 执行 搜索 ,但 用 户 的 信息 
需求 得 到 了 满足 。 


) 








4.10” 辟 结 


口 搜索 建议 对 于 帮助 用 户 编写 好 的 查询 非常 重要 。 

口 生成 此 类 建议 的 数据 可 以 是 静态 的 (例如 以 前 输入 查询 的 词典 )， 也 可 以 是 动态 的 (例如 
存储 在 搜索 引 警 中 的 文档 )。 

口 可 以 使 用 文本 分 析 和 n-gram 语言 模型 来 构建 好 的 建议 算法 。 

口 神经 语言 模型 是 基于 神经 网 络 的 语言 模型 ， 如 RNN (或 LSTM )。 

口 使 用 神经 语言 模型 可 以 得 到 更 好 的 建议 。 

口 要 得 到 好 的 结果 ， 监 控 神 经 网 络 的 训练 过 程 很 重要 。 

口 可 以 将 原始 建议 算法 的 结果 与 词 回 量 相 绪 合 ， 以 增加 建议 的 多 样 性 。 




















用 间 家 入 对 搜索 结 末 排序 





口 统计 和 概率 检索 模型 

口 使 用 Lucene 中 的 排序 算法 

口 神经 信息 检索 模型 

口 使 用 平均 词 舱 入 对 搜索 结果 进行 排序 








从 第 2 音 开 始 , 我 们 一 直 在 构建 基于 神经 网 络 的 组 件 来 改进 搜索 引擎 。 这些 组 件 的 目的 是 帮 
助 搜 索引 苟 通 过 扩展 同义词 、 生 成 查询 的 蔡 代 表示 ,以 及 在 用 户 输入 查询 时 提供 更 智能 的 建议 来 
更 好 地 捕获 用 户 意图 。 如 这 些 方法 所 示 , 在 与 存储 在 倒 排 索引 中 的 词 项 进行 匹配 之 前 ,可 以 对 查 
询 进 行 扩展 、 调 整 和 转换 ， 然 后 再 如 第 1 草 所 述 ， 用 这 些 查询 词 项 去 查找 匹配 的 文档 。 

这 些 匹 配 文档 也 称 为 搜索 结果 ( search result )， 是 根据 它们 与 输入 查询 的 预测 匹配 程度 来 排 
序 的 。 这 种 对 结果 进行 排序 的 任务 称 为 排序 ( ranking ) 或 评分 ( scoring )。 排 序 功能 对 搜索 结果 
的 相关 性 ( relevance ) 有 根本 性 的 影响 ， 因 此 正确 的 排序 意味 着 搜索 引擎 将 有 更 高 的 精确 率 
(precision )， 而 其 用 户 将 首先 获得 最 相关 和 最 重要 的 信息 。 获 得 正确 的 排序 不 是 一 个 一 步 到 位 的 
过 程 ， 相 反 ,， 这 是 一 个 渐进 的 过 程 。 在 现实 生活 中 ， 人 们 会 使 用 现 有 的 排序 算法 ,创建 一 个 新 的 
排序 算法 , 或 将 现 有 排序 函数 和 新 的 排序 函数 相 结 合 。 很 多 时 候 ， 人 们 必须 对 它们 进行 调整 ， 以 
准确 捕获 用 户 正 在 查找 的 内 容 ， 以 及 他 们 编写 查询 的 方式 等 。 

本 昔 将 介绍 常见 的 排序 函数 和 信息 检索 模型 , 以 及 搜索 引擎 如 何 “ 决 定 ” 前 先 显示 哪些 结果 。 
然后 ， 本 章 将 展示 如 何 使 用 文本 (单词 、 句 子 、 文 档 等 ) 的 稠密 癌 量 表示 来 改进 搜索 引擎 的 排序 
功能 。 这 些 文本 的 向 量 表示 形式 也 称 为 藤 入 ( embedding )， 它 们 有 助 于 排序 函数 根据 用 户 的 意 网 
更 好 地 匹配 文档 和 对 文档 进行 评分 。 


5.1 排序 的 重要 性 
有 一 张 表情 包 图 片 曾 在 网 上 风 雄 一 时 ， 它 的 文字 说 明 是 这 样 的 :“ 最 安全 的 藏匿 地 点 是 谷歌 


搜索 显示 结果 的 第 二 页 。” 当 然 ， 这 名 针对 网 络 搜索 ( 内 容 搜索 ， 比 如 网 站 的 网 页 ) 的 调侃 略 显 
夸张 ,但 也 在 很 大 程度 上 说 明了 用 户 对 搜索 引擎 返回 相关 结果 的 预期 。 从 用 户 心理 上 来 说 , 编写 
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更 好 的 查询 通常 比 品 下 深 动 并 单 击 结 采 页 面 上 的 “第 二 页 ”按钮 更 容易 。 这 张 表情 包 图 片 也 可 以 
这 样 解读 :“ 如 果 它 没有 出 现在 第 一 页 ， 那 它 就 不 可 能 相关 。” 这 解释 了 为 什么 相关 性 很 重要 。 你 
可 以 做 出 如 下 假设 。 

口 用 户 是 “懒惰 ”的 。 他 们 通常 不 想 为 了 判断 搜索 结果 的 好 坏 而 癌 下 滚动 页 面 或 查看 3 个 

以 上 的 结 末 。 因 此 ,返回 成 二 上 万 的 结 采 通常 是 无 用 的 。 
口 用 户 是 “无 知 ” 的 。 他 们 不 了 解 搜索 引擎 内 部 的 工作 原理 。 他 们 只 会 编写 一 条 查询 ， 并 
日 希望 得 到 好 的 结果 。 

如 果 搜 索引 警 的 排序 功能 运行 恨 好 ， 那 么 只 返回 前 10~20 个 结果 ， 用 户 就 会 很 满意 。 注 意 ， 
这 样 做 还 会 对 搜索 引擎 的 性 能 产生 积极 影响 ， 因 为 用 户 不 会 浏览 所 有 匹配 的 文档 。 

不 过 , 你 可 能 想 知 道 相 关 性 问题 是 否 适用 于 所 有 情况 。 例如， 如 果 有 一 个 由 一 两 个 单词 组 成 
的 简短 查询 , 而 这 些 单词 清楚 地 指明 了 搜索 结果 是 一 个 小 集合 ,那么 相关 性 问题 就 不 那么 明显 了 。 
想 想 你 在 谷歌 搜索 上 为 了 检索 一 个 维基 百科 页 面 而 执行 的 所 有 搜索 查询 。 例 如 , 你 希望 找到 描述 
Bernhard Riemann 的 页 面 。 你 先 在 地 址 栏 输入 维基 百科 的 网 站 链接 ， 上 再 在 维基 百科 搜索 文本 框 中 
输入 Bernhard Riemann ， 然 后 点 击 放大 镜 按 钮 来 获得 结果 ， 这 有 点 矿 烦 。 在 谷歌 搜索 的 搜索 框 
中 输入 Bernhard Riemann 则 要 快 得 多 , 而 且 很 可 能 第 一 页 的 第 一 个 或 第 二 个 搜索 结果 就 是 维基 百 
科 页 面 。 这 是 一 个 用 户 (认为 他 ) 提前 知道 想 要 检索 什么 的 例子 (他 很 懒 , 但 是 知道 目 己 要 什么 ， 
并 且 基 于 自身 经 验 ， 了 解 搜索 引擎 在 搜索 人 名 时 的 工作 方式 )。 但 在 很 多 情况 下 ， 这 并 不 适用 。 
假设 用 户 是 一 位 数学 专业 的 本 科 生 , 对 Riemann 的 一 般 信息 不 感 兴趣 , 而 但 是 想 知道 为 什么 他 的 
工作 在 几 个 不 同 的 科学 领域 都 很 重要 。 某 些 学 生 可 能 事先 不 知道 他 们 想 要 的 具体 资源 , 但 是 知道 
所 需 资源 的 类 型 ， 并 且 会 基于 后 者 输入 查询 。 这 样 的 学 生 可 能 会 输入 一 个 问题 ， 比 如 “the 
importance ofBernhard Riemann works” 或 者 “Bernhard Riemann influence in academic research”。 
如 果 在 谷歌 搜索 引擎 上 运行 这 两 个 查询 ， 你 将 看 到 : 

口 每 个 查询 的 搜索 结 采 不 同 ; 

口 这 两 种 情况 下 搜索 结果 出 现 的 顺序 不 同 。 

更 值得 注意 的 是 , 在 本 书写 作 时 ,第 一 个 查询 返回 维基 百科 页 面 作为 第 一 个 结 采 ， 而 第 二 个 
查询 的 第 一 个 结果 是 “herbart's influence on Bernhard riemann”。 这 很 奇怪 ， 因 为 它 颠 倒 了 用 户 的 
意图 ， 学 生 想 知道 Riemann 是 如 何 影 响 其 他 人 的 ， 而 不 是 反 过 来 〈 而 第 二 个 结果 ，riemann’s 
contribution to differential geometry 听 起 来 更 相关 )。 这 类 问题 增加 了 对 搜索 结果 进行 排序 的 难度 。 

现在 看 一 下 排序 在 查询 的 生命 周期 中 是 如 何 发 挥 作用 的 〈 见 图 5-1 )。 

(1) 用 户 编 写 的 查询 被 解析 、 分 析 并 分 解 为 一 组 词 项 子 句 〈 编码 查询 )。 

(2) 在 搜索 引擎 数据 上 执行 编码 查询 ( 针对 每 个 词 项 ， 在 倒 排 索引 表 中 进行 查找 )。 

(3) 匹配 的 文档 被 收 集 并 传递 给 排序 函数 。 

(4) 每 个 文档 都 由 排序 函数 进行 评分 。 

(5) 通常 ， 搜 索 结 果 依 据 分 数 降 序 排序 ( 第 一 个 结果 的 分 数 最 高 )。 
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返回 排序 后 的 搜索 结 


中 


人 结果 被 排序 


Bernhard Riemann influence in 
academic research 


相生 角力 上 所 
查询 解析 器 a 











将 查询 bernhard OR ri 和 
J ernhar riemann 
转换 为 于 句 OR influen OR academ 
.. OR research docld = 233 


返回 搜索 结 采 列表 


We 


图 5-1 查询 、 检 索 和 排序 








排序 函数 接受 一 组 搜索 结果 ,并 为 每 个 结果 分 配 一 个 分 数 , 该 分 数 表明 该 搜索 结果 相对 于 输 
人 查询 的 重要 性 。 分 数 越 高 ， 文 档 就 越 重 要 。 

此 外 ， 在 对 搜索 结果 进行 排序 时 ， 智 能 搜索 引擎 应 该 考虑 以 下 几 点 。 

口 用 户 历 史 一 一 记录 用 户 过 去 的 活动 ， 并 在 排序 时 将 其 考虑 在 内 。 例 如 ， 在 过 去 的 查询 中 
重复 出 现 的 词 项 可 能 表明 用 户 对 某 个 主题 的 兴趣 ， 因 此 该 主题 的 搜索 结果 排序 应 该 靠 前 。 

口 用 户 的 地 理 位 置 一 一 记录 用 户 的 位 置 ， 为 用 当地 语言 编写 的 搜索 结果 增加 分 数 。 

口 随时 间 变 化 的 信息 一 一 回想 一 下 第 3 章 中 的 “latesttrends” 查 询 。 这 样 的 查询 不 仅 应 该 匹 
配 “latest”d” 和 (或 ) “trends”， 而 且 还 应 该 提高 新 文档 (最近 的 信息 ) 的 分 数 。 

口 所 有 可 能 的 上 下 文 线索 一 一 寻找 能 为 查询 提供 更 多 上 下 文 的 标志 。 例 如 ， 查 看 搜索 日 志 
检查 以 前 是 否 执行 了 该 查询 。 如 果 是 ， 则 检查 搜索 日 志 中 的 下 一 个 查询 ， 看 看 是 否 有 任 
何 共享 结果 ， 并 使 它们 排序 靠 前 。 

现在 ， 本 章 将 深入 回答 一 个 关键 问题 ,搜索 引擎 如 何 决 定 怎样 为 给 定 查 询 的 搜索 结果 排序 。 


5.2 检索 模型 


到 目前 为 止 , 本 半 已 经 讨论 了 文档 排序 任务 。 首 先 将 文档 当 作 一 个 函数 ,该 函数 将 文档 作为 
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输入 并 产生 一 个 表示 文档 相关 性 的 分 数 伸 。 在 实践 中 ， 排 序 也 数 通 党 是 信息 检索 模型 (IR 模型 ) 
的 一 部 分 。 这 样 的 模型 定义 了 搜索 引擎 处 理 为 一 个 信息 需求 提供 相关 结 末 这 一 整体 问题 的 方法 : 
从 查询 解析 开始 ， 然 后 匹配 、 检 索 和 对 搜索 结果 进行 排序 。 构 造 一 个 模型 的 基本 原理 是 ， 如 有 果 不 
知道 搜索 引 敬 如何 处 理 查 询 ， 就 很 难 找到 一 个 能 给 出 准确 分 数 的 排序 子 数 。 在 “+riemann 
-influenced influencing” 这 样 的 查询 中 ， 如 采 一 个 文档 同时 包含 “riemann” 和 “influencing” 两 
个 词 项 ,那么 最 终 的 结果 应 该 是 第 一 项 和 第 二 项 的 分 数组 合 〈 score = score(riemann) + 
score(influencing) )， 但 是 “riemann” 这 个 词 项 具有 强制 约束 〈 指 “+” 符 号 )， 因 此 它 应 该 比 
“influencing” 这 一 可 选项 分 数 更 高 。 

此 ， 搜 索引 擎 计算 结果 文档 与 查询 的 相关 性 的 方式 对 搜索 引擎 背后 的 设计 和 架构 有 影响 。 
从 第 1 章 开 始 , 本 书 台 假设 当 文本 在 输入 搜索 引擎 时 会 被 分 析 并 切 分 成 块 ， 而 分 词 磊 和 词素 过 滤 
天 会 对 这 些 块 进行 更 改 。 这 个 文本 分 析 链 生成 词 项 , 并 最 终生 成 倒 排 索引 , 也 称 记 录 列 表 ( posting 
list )。 用 关键 字 进 行 搜索 的 应 用 场景 ， 会 促使 人 们 选择 记录 列表 ， 因 为 通过 词 项 匹配 能 高 效 地 检 
索 文档 。 类 似 地 ,结果 文档 的 排序 方式 可 能 会 影响 系统 和 需求。 例如， 排序 苑 数 可 能 需要 访问 更 多 
关于 索引 数据 的 信息 ， 而 不 仅仅 是 倒 排列 表 中 是 否 存 在 某 个 词 项 。 有 一 组 广泛 使 用 的 检索 模型 ， 
称 为 统计 模型 (statistical model )。 它 能 根据 匹配 词 项 在 特定 文档 和 整个 文档 集中 出 现 的 频率 对 某 
个 文档 进行 排序 。 

前 几 曹 的 内 容 已 经 超越 了 在 查询 和 文档 之 间 进 行 简 单 的 词 项 匹配 。 前 文 使 用 了 同义词 扩展 来 
生成 同义词 词 项 ， 例 如 在 搜索 时 ，( 在 单词 级 ) 对 用 户 表 达 同 一 件 事 的 多 种 可 能 方式 进行 扩展 。 
第 3 章 中 扩展 了 这 种 方法 ， 除 了 用 户 输入 的 原始 查询 之 外 ， 还 生成 了 新 的 可 选 查询 。 

以 上 所 有 工作 的 目的 都 是 建立 一 个 易于 理解 文本 语义 的 搜索 引擎 。 

口 在 同义词 扩展 的 情况 下 一 一 无 论 你 输入 “hello” 还 是 “hi”， 语 义 上 你 都 在 讲 同一 件 事 。 

口 在 可 选 查询 扩展 的 情况 下 如 果 输 入 “latest trends”， 你 将 得 到 拼写 不 同 但 语义 上 接近 

原始 查询 的 可 选 查 询 。 

总 体 来 说 ,( 人 简化 后 的 ) 思想 是 ， 即 使 查询 和 索引 词 项 之 间 不 存在 精确 匹配 ， 也 应 该 返回 与 
该 查询 相关 的 文档 。 同 义 词 和 可 选 查 询 表示 提供 了 更 广泛 的 相关 查询 词 项 , 可 以 与 文档 词 项 匹配 。 
这 些 方法 使 你 更 有 可 能 找到 使 用 了 语义 相似 的 单词 或 查询 的 文档 。 在 理想 的 情况 下 , 搜索 引擎 应 
该 超越 查询 -文档 词 项 匹配 ， 并 有 旦 理解 用 户 的 信息 需求 。 基 于 此 ， 它 应 该 返回 与 该 需求 相关 的 结 
条， 而 不 是 将 检索 局 限于 词 项 匹配 。 

创建 具有 良好 语义 理解 能 力 的 搜索 引擎 非常 困难 。 好 消息 是 ,后 文 将 提 到 ， 基 于 深度 学 习 的 
技术 可 以 极 大 地 帮助 缩小 普通 查询 字符 串 与 实际 用 户 意图 之 间 的 差距 。 第 3 章 在 提 到 seq2sed 模 
型 时 简单 介绍 过 思维 向 量 (thought vector )。 你 可 以 把 它 想 成 用 户 意图 的 一 种 表达 方式 ， 你 需要 
借助 它 超越 简单 的 词 项 匹配 。 

一 个 好 的 检索 模型 应 该 考虑 语义 。 可 以 想象 ， 这 种 语义 视角 也 适用 于 对 文档 进行 排序 , 例子 
下。 

口 有 一 些 结 果 的 匹配 词 项 来 自由 LSTM 网 络 生成 的 可 选 查询 ， 当 对 结果 进行 排序 时 ， 这 类 

文档 的 分 数 与 基于 原始 用 户 查 询 的 词 项 进行 匹配 的 文档 的 分 数 ， 是 否 应 该 有 所 不 同 ? 
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口 如 果 你 计划 用 由 深度 学 习 生 成 的 表示 (例如 思维 癌 量 ) 来 捕获 用 户 意 图 ， 那 么 该 如 何 使 
用 它们 来 进行 检索 和 结果 排序 呢 ? 

接 下 来 ， 本 章 将 探讨 以 下 内 容 : 

口 更 传统 的 检索 模型 ; 

口 对 传统 模型 进行 拓展 ， 这 种 模型 使 用 由 神经 网 络 习 得 的 文本 向 量 表示 ( 这 将 是 接 下 来 的 
重 癌 ; 

口 只 依赖 于 深度 神经 网 络 的 神经 人 民 模 型 。 











5.2.1 TF-IDF 与 向 量 空间 模型 


第 1 章 提 到 了 TF-IDF 和 向 量 空 间 模 型 ( vector space model，VSM )。 接 下 来 将 详细 介绍 它们 
是 如 何 工 作 的 。 排 序 函 数 的 根本 目的 是 为 查询 -文档 对 评分 。 一 种 度量 文档 相对 于 查询 的 重要 性 
的 常 见方 法 , 是 利用 基于 查询 和 文档 中 的 词 项 计算 出 的 统计 数据 。 这 种 检索 模型 称 为 信息 检索 的 
统计 模型 ( statistical models for information retrieval )。 

假设 有 一 个 查询 “bernhard riemann influence” 和 两 个 结果 文档 : document1= “riemann - life and 
works of bernhard riemann ”和 document2 = “thomas bernhard biography - bio and influence in 
literature”。 查 询 和 文档 都 是 由 词 项 组 成 的 。 当 观察 上 述 两 个 结果 哪 一 个 更 匹配 时 , 你 会 发 现 以 下 
现象 。 

口 documentl 匹配 词 项 “riemann” 和 “bernhard”。 两 个 词 项 都 匹配 了 两 次 。 

口 document2 匹配 词 项 “bernhard” 和 “influence”。 两 个 词 项 都 只 匹配 一 次 。 

口 documentl 的 每 个 匹配 项 的 词 项 频率 均 为 2, 而 document2 的 两 个 匹配 项 的 词 项 频率 均 为 1。 

口 “bermhard” 的 文档 频率 为 2 (这 是 因为 它 出 现在 两 个 文档 中 ， 它 在 单个 文档 中 重复 出 现 

的 次 数 无 须 计算 )。“riemann” 的 文档 频率 为 1, “influence” 的 文档 频率 为 1。 























同 项 频率 与 文档 频率 
通常 ， 给 定 一 个 查询 ,统计 模型 会 结合 词 项 频率 ( term frequency ) 和 文档 频率 ( document 
frequency ) 得 出 文档 相关 性 度量 。 选 择 这 些 度量 标准 的 基本 原理 是 ,计算 关于 词 项 的 频率 和 统 
计数 据 可 以 度量 它们 的 信息 量 。 更 具体 地 说 , 一 个 查询 词 项 在 文档 中 出 现 的 次 数 可 以 度量 该 文 
档 与 该 查询 的 相关 性 ， 这 就 是 词 项 频率 。 另 外 , 很 少 出 现在 索引 数据 中 的 词 项 被 认为 比较 常见 
的 词 项 更 重要 、 更 能 提供 信息 ( 像 “the” 和 “in” 这 样 的 词 项 通常 不 能 提供 信息 ， 因 为 它们 太 
常见 了 )。 一 个 词 项 在 所 有 已 索引 文档 中 的 频率 称 为 文档 频率 。 


如 果 将 每 个 匹配 项 的 词 项 频率 相 加 ， 那 么 documentl 的 分 数 为 4，document2 的 分 数 为 2。 

添加 一 个 文档 3， 其 内 容 为 “Tiemann hypothesis - a deep dive into a mathematical mystery” ,并 
根据 同一 查询 对 其 进行 评分 。document3 的 分 数 为 1， 因为 只 有 “riemann” 词 项 与 其 匹配 。 这 并 
不 好 ， 因 为 尽管 document3 与 Riemann 的 影响 无 关 ， 但 它 还 是 比 document2 更 具 相 关 性 。 
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更 好 的 排序 方法 是 , 将 词 项 频率 的 对 数 之 和 除 以 文档 频率 的 对 数 , 用 所 得 结果 来 对 每 个 文档 

进行 评分 。 这 个 著名 的 权重 方案 叫 作 TF-IDF。 
welght(term) = (1] + log 人 (ttterm))) x log(N/df(term)) 

NM 是 索引 文档 的 数量 。 添 加 document3 后 ， 词 项 “riemann” 的 文档 频率 现在 为 2。 对 每 个 匹 
配 项 使 用 前 面 的 等 式 ， 并 对 TF-IDF 求 和 ， 以 获得 以 下 分 数 。 

Score(document1l ) = tt-ldf(riemann) + tf-idf(bernhard) = 1.28 + 1.28 = 2.56 
score(document2) = tf-idf(bernhard) + tf-idf(nfluence)= 1+1=2 
score(document3)= tf-idf(riemann)= 1 

刚刚 基于 TF-IDF 进行 的 评分 仅 依赖 于 纯粹 的 词 项 频率 ， 因 此 不 相关 的 文档 ( document2 ) 的 
分 数 高 于 有 一 点 相关 的 文档 (document3 )。 正 如 前 文 所 述 , 在 本 例 中 ,检索 模型 缺少 对 查询 意图 
语义 上 的 理解 。 

到 目前 为 止 , 本 书 已 经 多 次 提 到 过 向 量 。 在 信息 检索 中 使 用 它们 并 不 是 一 个 新 帘 的 想法 。 站 
量 空 间 模 型 ( VSM ) 通过 将 查询 和 文档 表示 为 回 量 ， 从 而 基于 TF-IDF 权重 方案 度量 它们 的 相似 
程度 。 每 个 文档 可 以 由 一 维 向 量 表示 ， 其 大 小 等 于 索引 中 现 有 词 项 的 数量 。 回 量 中 的 每 个 位 置 表 
示 一 个 词 项 ， 其 值 等 于 该 词 项 在 该 文档 中 的 TF-IDF 值 。 

在 查询 中 也 可 以 这 样 做 , 因为 它们 也 是 由 词 项 组 成 的 。 唯 一 的 区 别 是 词 项 频率 可 以 是 本 地 的 
( 查询 词 项 出 现在 查询 中 的 频率 )， 也 可 以 来 目 索 引 《〈 碍 询 词 项 出 现在 索引 数据 中 的 频率 )。 这 样 
就 能 将 文档 和 查询 表示 为 癌 量 。 这 种 表示 称 为 词 袋 ( bag-of-words )。 这 是 因为 关于 词 项 位 置 的 信 
县 丢失 ， 而 每 个 文档 或 查询 都 只 表示 为 一 个 单词 集合 ， 如 表 5-1 所 示 。 


表 5-1 词 袋 表示 












































语 项 bernhard bio dive hypothesis in influence into life mathematical riemann 
docl 1.28 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 1.28 
doc2 1.0 1.0 0.0 0.0 1.0 1.0 0.0 0.0 0.0 0.0 
doc3 0.0 0.0 1.0 1.0 0.0 0.0 1.0 0.0 1.0 1.0 





“bernhard riemann influence” 和 “riemann influence bernhard” 的 问 量 看 起 来 完全 相同 。 这 既 
不 能 体现 两 个 查询 是 不 同 的 , 也 不 能 体现 第 一 个 查询 比 第 二 个 查询 更 有 意义 。 现 在 文档 和 查询 在 
问 量 空间 中 表示 ,如果 和 希望 计算 出 哪个 文档 与 输入 查询 最 匹配 , 则 可 以 通过 计算 每 个 文档 和 输入 
查询 之 间 的 余弦 相似 度 (cosine similarity ) 来 实现 ， 这 将 提供 每 个 文档 的 最 终 排序 。 人 余弦 相似 度 
是 文档 与 查询 癌 量 之 间 夹 角 大 小 的 度量 。 图 5-2 显示 了 在 只 考虑 词 项 “bernhard” 和 “riemann” 
时 ， 输 入 查询 、documentl 和 document2 在 (简化 的 二 维 ) 回 量 空间 中 的 回 量 。 
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bernhard 





riemann 





图 5-2 余弦 相似 度 


查看 两 个 丫 量 之 间 的 夹 角 以 评价 查询 向 量 和 文档 之 间 的 相似 度 。 夹 角 的 角度 越 小 ,两 个 向 量 
束 越 相似 。 将 此 应 用 于 表 5-1 中 的 向 量 时 ， 将 获得 以 下 相似 度 分 数 。 








cosineSimilarity (gquery,docl) = 0.51 
CosineSimilarity (gquery,doc2) = 0.38 
CosineSimilarity (gquery,doc3) = 0.17 


在 只 有 3 个 文档 时 ， 结 果 向 量 的 大 小 为 10( 列 数 等 于 全 部 文档 中 出 现 过 的 词 项 的 数量 ),。 在 
生产 系统 中 ， 这 个 值 会 高 得 多 。 因 此 ,这 种 词 袋 表示 的 一 个 问题 是 ， 回 量 的 大 小 会 随 着 现 有 词 项 
的 数量 〈 索 引文 档 中 包含 的 所 有 不 同 单词 ) 的 增加 而 线性 增长 。 这 是 词 癌 量 (如 由 word2vec 生 
成 的 词 向 量 ) 比 词 袋 向 量 更 好 的 另 一 个 原因 。word2vec 生成 的 向 量具 有 固定 的 大 小 , 它们 不 会 随 
着 搜索 引擎 中 词 项 数量 增长 而 增长 。 因 此 ， 使 用 它们 时 资源 消耗 要 低 得 多 。( word2vec 生成 的 向 
量 在 捕获 单词 语义 方面 做 得 更 好 ， 如 第 2 章 所 述 。) 

尽管 存在 这 些 限制 ,VSM 和 TF-IDF 还 是 在 许多 生产 系统 中 经 销 得 到 使 用 , 并 且 可 以 取得 良 
好 的 结果 。 在 讨论 其 他 信息 检索 模型 之 前 , 先 务实 一 点 ,用 Lucene 摄取 文档 ,看 看 如 何 使 用 TF-IDF 
和 VSM 对 它们 进行 评分 。 









































5.2.2 ”在 Lucene 中 对 文档 进行 排序 


在 Lucene 中 ，Similarity API 是 排序 函数 的 基础 。Lucene 提供 了 一 些 开 箱 即 用 的 信息 检 
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索 模 型 ， 例 如 市 有 TF-IDF 的 VSM(〈 它 直到 第 5 版 仍 为 默认 项 )、Okapi BM25、 随 机 偏差 模型 、 
语言 模型 等 ,在 索引 时 和 搜索 时 都 需要 设置 Simi larity。 在 Lucene7 中 ,ClassicSimilarity 
是 VSM 相似 度 和 TF-IDF 相似 度 的 和 。 

索引 时 ， 在 IndexwriterCconfig 中 设置 SIT LOT LEYS 


创建 索引 配置 
IndexWriterConfig config = new IndexWriterConfig(); 
config.setSimilarity (new ClassicSimilarity()); NE x 
- ” 将 相似 度 设置 为 
ClassicSimilarity 
IndexWriter writer = new IndexWriter(directory, config);} 
使 用 已 配置 的 相似 度 


创建 IndexWwriter 


搜索 时 ， 在 IndexSearcher 中 设置 Similarity。 


打开 IndexReader 
IndexReader reader = DirectoryReader.open (directory),; 








IndexSearcher searcher = new IndexSearcher (reader).， 
searcher.setSimilarity (new ClassicSimilarity); 在 reader 上 创建 一 个 


设置 Similarity 





如 琳 你 对 之 前 的 3 个 文档 进行 索引 和 搜索 ， 则 可 以 查看 排序 是 否 按 预 期 运行 。 


你 可 以 自己 定义 Lucene 
字段 的 功能 《存储 值 、 存 














储 词 项 位 置 等 ) 对 于 每 个 文档 ， 创 建 一 个 

FieldType fieldType = | 新 文档 并 在 title 字段 中 
Document docl = new Document (); 添加 内 容 
docl.add (new Field("title", 

"riemann bernhard - life and works of bernhard riemann", ft)),; 
Document doc2 = new Document ( ) ; 
doc2.add (new Field("title", 

"thomas bernhard biography - bio and influence in literature", ft)).; 
Document doc3 = new Document ( ) ; 
doc3.add (new Field("title", 

"riemann hypothesis - a deep dive into a mathematical mystery", ft)); 
writer.addDocument (docl1).; 、 山 
writer.addDocument re ; 深 加 所 有 3 个 文科 

并 提交 更 改 


writer.addDocument (Qoc3 ) ; 
writer.commit().; 


要 检查 Similarity 类 如 何 对 查询 的 每 个 搜索 结果 评分 ， 可 以 要 求 Lucene 使 用 explain 
对 其 说 明 。explain 的 输出 包含 每 个 匹配 词 项 如 何 对 每 个 搜索 结果 的 最 终 分 数 做 出 贡献 的 描述 。 


和 四 写 一 个 查询 
String queryString = "bernhard riemann 1InftlLuence'" ， 
OQueryParser parser = new QueryParser ("title", new WhitespaceAnalyzer()); 


Ouery lb = parser.parse (dqueryString).; 解析 用 户 输 
Ee hits = searcher.search (query, 3); 入 的 查询 
a Oe TNE TT 0 To Te,.eorenoce. Jength: T4471 | 
执行 搜索 


ScoreDoc scoreDoc = hits.scoreDocsl[1i]; 
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Document doc = searcher.doc(scoreDoc.doc); 在 标准 输出 上 打印 
String title = doc.get ("title"),; 文档 title 和 分 数 
SySstem.out .printin(title + " : " + ScoreDoc.Score):; 
System.out .println("-—-"); 
Explanation explanation = searcher.explain (gquery, ScoreDoc.doc); 
System.out .printilin (explanation),; 2 i RR 
ee 0 获取 有 关 如 何 计算 
分 数 的 说 明 
使 用 ClassicSimilarity, 你 能 获得 以 下 explain 输出 。 
riemann bernhard - life and works of bernhard riemann : 1.2140384 


1.2140384 = sum of: 
0.6070192 = weight (title:bernhard in 0) [ClassicSimilarity], result of: 
0.6070192 = fieldWeight in 0, product of: 


0.6070192 = weight (title:riemann in 0) [ClassicSimilarity], result of: 
0.6070192 = fieldWeight in 0, product of: 


thomas bernhard biography - blo and influence in literature : 0.9936098 


0.9936098 = sum of: 
0.42922735 = weight (title:bernhard in 1) [ClassicSimilarity], result of: 
0.42922735 = fieldWeight in 1, product of: 


0.56438243 = weight (title:influence in 1) [ClassicSimilarity], result of: 
0.56438243 = fieldWeight in 1, product of: 


riemann hypothesis - a deep dive into a mathematical mystery : 0.4072008 


0.4072008 = Sum of: 


0.4072008 = weight (title:riemann in 2) [ClassicSimilarity], result of: 
0.4072008 = fieldWweight in 2, product of: 


正如 所 料 ， 排 序 芝 循 5.2.1 市 所 描述 的 内 容 。 可 以 从 说 明 中 看 到 ， 文 档 的 分 数 是 与 查询 匹配 
的 每 个 词 项 权重 的 和 。 
0.9936098 = sum of: 


0.42922735 = weight (title:bernhard in 1)... 
0.56438243 = weight (title:infljuence in 1)... 





另外 ,此 时 的 分 数 与 手动 计算 词 项 的 TF-IDF 权重 时 得 到 的 分 数 不 完 全 相同 。 原因 是 TF-IDF 
方案 有 许多 可 能 的 变化 。 例 如 ， 这 里 Lucene 道 文档 频率 的 计算 方法 为 
log(N+1)/(df(term)+1) 
而 不 是 
log(N/df(term)) 
此 外 ，Lucene 不 使 用 词 项 频率 的 对 数 ， 而 是 使 用 词 项 频率 。Lucene 还 使 用 了 归 一 化 (normalization )。 
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这 种 技术 可 以 处 理 这 样 一 种 实际 情况 : 词 项 较 多 的 文档 分 数 往往 远 高 于 词 项 较 少 的 文档 。 归 一 化 
值 约 等 于 1.0 / Math.sqrt( 词 项 数量 )。 在 使 用 此 归 一 化 技术 时 ,计算 查询 向 量 和 文档 向 量 
之 间 的 余弦 相似 度 等 同 于 计算 其 标量 积 ， 如 下 所 示 。 


Score (Guery，dqocument1) = tf-idf(gquery, bernhard) x tf-idf (documentl1, bernhard) 
+ tf-idf (query, riemann) x tf-idf (document, riemann) 


Lucene 不 存储 向 量 ， 能 为 每 个 匹配 词 项 计算 TF-IDF 并 将 绪 采 组 合计 算出 分 数 就 足够 了 。 


5.2.3 ”概率 模型 


本 书 已 经 介绍 了 了 一些 VSM 理论 及 其 在 Lucene 中 应 用 于 实践 的 方法 ,前 文 还 介绍 了 使 用 词 项 
统计 计算 分 数 的 方法 。 本 市 将 介绍 概率 检索 模型 其 中 分 数 仍然 是 基于 概率 计算 的 。 搜 索引 苟 会 
使 用 文档 与 查询 相关 的 概率 对 其 进行 排序 。 

概率 是 解决 不 确定 性 的 有 力 工 具 。 前 文 已 经 讨论 了 弥补 用 户 意 图 和 相关 搜索 结果 之 间 差 距 的 
难度 。 概率 模型 试图 通过 度量 某 个 文档 与 输入 查询 相关 的 可 能 性 来 对 排序 进行 建 模 。 如 有 果 撕 一 枚 
有 6 个 面 的 角 子 ， 那么 每 一 面 有 1/6 的 概率 出 现 。 例 如 ， 掷 到 3 的 概率 是 p(3) = 1/6。 但 实际 上 ， 
如 果 撕 一 榴 骨 子 6 次 ,很 可 能 不 会 得 到 所 有 6 种 结果 ,虽然 概率 是 对 特定 事件 发 生 可 能 性 的 估计 ， 
但 是 这 并 不 意味 着 事件 会 精确 地 按 概 率 发 生 。 

据 般 子 得 到 任何 数字 的 无 条 件 概 率 是 16， 但 连续 掷 到 两 个 相同 结果 的 概率 是 多 少 呢 ? 这 种 
条 件 概 率 可 以 表示 为 (事件 | 条 件 )。 在 排序 任务 中 ， 你 可 以 估计 某 个 文档 〈 与 给 定 查询 ) 相关 的 
概率 。 这 表示 为 pPU=1b， 其 中 7 是 相关 性 的 二 元 度量 。 

r= 1: 相关 ; r= 0: 不 相关 

在 概率 检索 模型 中 ， 人 们 通常 按照 p(O=1 对 给 定 查询 的 所 有 文档 进行 排序 。 概 率 排 序 原则 
( probability ranking principal ) 可 以 很 好 地 表示 这 一 点 : 如 果 检 索 到 的 文档 是 按 相对 于 可 用 数据 的 
相关 性 概率 降序 排序 的 ， 那 么 对 该 数据 而 言 系统 的 有 效 性 就 是 最 好 的 。 

Okapi BM25 是 最 知名 、 使 用 最 广泛 的 概率 模型 之 一 。 简 而 言 之 ， 它 试图 放宽 TF-IDF 的 两 个 
限制 : 

口 限制 词 项 频率 的 影响 ， 以 避免 对 频繁 重 复 的 词 项 评分 过 高 ; 

口 更 好 地 佑 计 某 个 词 项 的 文档 频率 的 重要 性 。 

BM25 通过 依赖 于 词 项 频率 的 两 个 概率 来 表达 条 件 概率 p(O=1m。 因 此 ,BM25 通过 计算 词 项 
频率 上 的 概率 分 布 来 佑 计 概 率 。 

考虑 一 下 “bernhard riemann influence” 这 个 例子 。 在 经 上 典 的 TF-IDF 方案 中 ， 高 频率 会 导致 
高 分 数 ,。 因 此 ,如 果 你 有 一 个 包含 大 量 “bernhard” 的 伪 文 档 document4(“bernhard bernhard bernhard 
bernhard bernhard bernhard bernhard bernhard bernhard bernhard”)， 它 可 能 比 更 相关 的 文档 分 数 更 
高 。 如 果 将 其 索引 到 先前 构建 的 沦 引 中 ， 则 可 以 使 用 TF-IDF 和 VSM (classicsimi 1] 各 次 证 EE 
获得 以 下 输出 。 
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riemann bernhard - life and works of bernhard riemann : 1.2888055 
bernhard bernhard bernhard bernhard bernhard bernhard ... : 1.2231436 
thomas bernhard biography - blo and influence in literature : 1.0464782 
riemann hypothesis - a deep dive into a mathematical mystery : 0.47776502 


如 上 述 代码 所 示 ， 伪 文档 作为 第 二 个 结果 被 返回 ， 这 很 奇怪 。 此 外 ，document4 的 分 数 几 乎 
等 于 排序 第 一 的 文档 的 分 数 : 搜索 引擎 将 此 虚拟 文档 排序 靠 前 ， 但 是 事实 并 非 如 此 。 现 在 ,使 用 
与 ClassricSimLi|larity 测试 相同 的 代码 在 Lucene 中 设置 BM25Similarity (从 版 本 6 开始 采 
用 的 默认 值 )。 


searcher.setSimilarity (new BM25Similarity()),; 


设置 BM25 相似 度 ， 排 序 如 下 。 


riemann bernhard - life and works of bernhard riemann : 1.6426628 
thomas bernhard biography - blo and influence in literature : 1.5724708 
bernhard bernhard bernhard bernhard bernhard bernhard ... : 0.9965918 


riemann hypothesis - a deep dive into a mathematical mystery : 0.68797445 








这 次 伪 文 档 排序 第 三 而 不 是 第 二 。 尽 管 这 不 是 最 佳 结 果 , 但 是 与 最 相关 的 文档 相 比 ， 伪 文档 
的 分 数 大 大 降低 了 。 原 因 是 BM25 会 “压缩 ” 词 项 频率 以 使 其 低 于 某 个 可 配置 的 国 值 。 这 种 情况 
下 ，BM25 减轻 了 “bernhard” 的 高 词 项 频率 的 影 啊 。 
BM25 的 男 一 个 好 人 处 是 ， 它 会 试图 估计 词 项 在 文档 中 出 现 的 概率 。 文 档 中 多 个 词 项 的 总 文档 
频率 等 于 单个 词 项 出 现在 该 文档 中 的 概率 的 对 数 总 和 。 
但 BM25 也 有 一 些 局 限 性 : 
口 与 TF-IDF 一 样 ，BM25 是 一 个 词 袋 模型 ， 所 以 它 在 排序 时 会 忽略 词 项 顺序 ; 
口 尽管 一 般 情 况 下 它 表 现 良 好 ， 但 是 BM25 基于 启发 式 算法 (一 种 可 以 得 到 相对 好 的 结 
的 算法 ,但 是 不 一 定 总 是 能 正常 工作 )， 可 能 不 适用 于 你 的 数据 (你 可 能 必须 调整 这 些 局 
发 式 算 法 ); 
口 BM25 会 在 概率 估计 上 执行 一 些 近 似 和 简化， 这 在 某 些 情况 下 会 导致 结果 可 接受 度 较 低 
(不 能 在 长 文档 上 很 好 地 工作 )。 
基于 语言 模型 进行 排序 的 其 他 概率 方法 通常 在 普通 概率 估计 方面 效果 较 好 , 但 这 并 不 总 能 市 
来 更 好 的 分 数 。 一 般 来 说 ，BM25 是 一 个 不 错 的 基础 排序 函数 。 
我 们 已 经 探索 了 一 些 最 常用 的 搜索 引 敬 排序 模型 , 现在 让 我 们 深入 探讨 神经 网 络 如 何 帮 助 改 
善 这 些 模型 并 提供 全 新 ( 旦 更 好 ) 的 排序 模型 。 















































5.3 ”神经 信息 检索 


到 目前 为 止 ， 我 们 通过 查看 词 项 及 其 本 地 ( 每 个 文档 ) 和 全 局 ( 每 个 集合 ) 频率 解决 了 有 效 
排序 的 问题 。 如 果 想 使 用 神经 网 络 来 获得 更 好 的 排序 函数 ,就 需要 考虑 向 量 。 实际 上 ,这 并 不 仅仅 
适用 于 神经 网 络 。 如 上 文 所 述 ， 即 使 是 经 典 的 VSM 也 会 将 文档 和 查询 视 为 向 量 ， 并 使 用 余 疏 距离 
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来 度量 它们 的 相似 度 。 问 题 是 ， 这 种 回 量 的 大 小 会 与 索引 单词 的 数量 一 起 〈 线 性 地 ) 急速 增长 。 

在 神经 信息 检索 之 前 ， 也 有 其 他 技术 可 以 提供 更 紧凑 ( 固定 大 小 ) 的 单词 表示 。 这 些 技术 主 
要 基于 和 矩阵 分 解 算 法 ， 如 潜在 语义 索引 ( latent semantic indexing，LSI ) 算法 ， 该 算法 基于 奇异 
值 分 解 ( singular value decomposition，SVD )。 简 而 言 之 ， 使 用 LSI 将 为 每 个 文档 行 创建 一 个 词 
项 文档 和 矩阵。 如果 文档 包含 相应 词 项 , 则 元 素 为 1; 否则 元 素 为 0。 多 下 用 约 化 SVD( reduced SVD ) 
分 解 方法 对 这 个 稀 下 和 矩阵 ( 其 中 存在 大 量 0 ) 进行 变换 (分 解 )， 得 到 3 个 (更 密集 的 ) 矩阵 ， 
其 乘积 是 原始 值 的 良好 近似 值 。 每 个 生成 的 文档 行 都 具有 固定 的 维度 ， 并 且 不 再 稀 丽 。 还 可 以 使 
用 SVD 分 解 矩 阵 来 变换 查询 向量 。[ 有 一 种 类 似 的 技术 ， 称 为 隐 和 狄 利克 雷 分 配 (latent Dirichlet 
allocation，LDA )。| 其 魅力 在 于 它 不 需要 词 项 匹配 ， 而 是 比较 查询 和 文档 回 量 ， 并 让 最 相似 的 文 
档 向 量 排 在 第 一 位 。 

学 习 良 好 的 数据 表示 是 深度 学 习 做 得 最 好 的 任务 之 一 。 接 下 来 本 章 将 介绍 使 用 这 种 向 量 表示 
来 进行 排序 的 方法 。 你 已 经 熟悉 算法 word2vec， 它 可 以 学 习 单 词 的 分 布 式 表示 。 当 所 代表 的 单 
词 出 现在 类 似 的 上 下 文中 时 ， 词 向量 彼此 靠近 并 因此 具有 相似 的 语义 。 


5.4 ”从 单词 到 文档 器 量 


现在 ， 开 始 构建 一 个 基于 word2vec 生成 的 回 量 的 检索 系统 。 此 时 目标 是 根据 查询 对 文档 进 
行 排序 ， 但 是 word2vec 为 单词 而 不 是 单词 序列 提供 回 量 。 因 此 ， 首 先 要 找到 一 种 方法 来 使 用 词 
问 量 表示 文档 和 查询 。 查 询 通常 由 多 个 单词 组 成 ， 索 引文 档 也 是 如 此 。 例 如 ， 为 查询 “bernhard 
riemann influence” 中 的 每 个 词 项 获取 词 癌 量 ， 并 绘制 它们 ， 如 网 5-3 所 示 。 
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图 5-3 “bernhard” “riemann” 和 “influence” 的 词 回 量 
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从 词 向 量 创建 文档 向 量 的 一 种 简单 方法 是 , 将 词 向 量 的 平均 值 作 为 单个 文档 向 量 的 值 。 这 是 
一 个 简单 的 数学 运算 : 每 个 回 量 中 位 于 位 置 7 的 每 个 元 又 相 加 , 总 和 除 以 被 平均 的 癌 量 的 数量 ( 与 
算术 平均 运算 相同 )。 此 操作 可 以 由 DL4J 向 量 ( INDArrays 对 象 ) 执行 ， 如 下 所 示 。 


public static INDArray toDenseAverageVector (Word2Vec word2Vec, 
String... terms) f{ 
return word2Vec.getWordVectorsMean (Arrays.asList (terms));} 


mean 问 量 是 平均 计算 的 结果 。 在 图 5-4 中 ， 正 如 预期 的 那样 ， 平 均 回 量 位 于 三 个 词 问 量 的 
中 心 。 
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图 5-4 平均 “bernhard”“riemann” 和 “influence” 词 问 量 


请 注意 ， 此 技术 不 仅 可 以 应 用 于 文档 , 还 可 以 应 用 于 碍 询 ， 因 为 两 者 都 是 单词 的 组 合 。 对 于 
每 个 文档 -查询 对 ， 可 以 通过 对 词 向 量 求 平均 向 量 来 计算 文档 向 量 ,， 然 后 根据 各 目 平 均 词 向 量 的 
接近 程度 将 分 数 分 配给 每 个 文档 。 这 与 在 VSM 场景 中 的 操作 类 似 ， 最 大 的 区 别 是 ， 这 些 文档 癌 
量 的 值 不 是 使 用 TF-IDF 计算 的 ， 而 是 对 word2vec 向 量 求 平 均 向 量 。 总 之 , 这些 稠 密 向 量 在 内 存 
(和 空间 ， 如 来 存 储 到 磁盘 ) 方面 负担 不 大 ， 且 在 语义 方面 信息 量 更 大 。 

重复 之 前 的 实验 ， 但 使 用 平均 词 回 量 对 文档 进行 排序 。 首 先 ， 从 搜索 引擎 为 word2vec 提供 
数据 。 


IndexReader reader = DITrectoryReadqer .open ( 


SR aocshe 在 搜索 引擎 文档 集 上 
创建 一 个 reader 















































FlIeldqValuesSentenceILeratLor iterator = new 
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创建 一 个 DL4J iterator， 
可 以 用 reader 从 标题 字段 
读 取 数据 


你 正在 使 用 超 小 型 数据 


Word2Vec vec = new Word2Vec.Builder() 
配置 .layerSize(3) 
word2vec .WindowSize(3) 

.tokenizerFactory (new DefaultTokenizerFactory ( ) ) 


FieldValuesSentenceIterator (reader, "title").; 加 








集 ， 因 此 应 使 用 非常 小 
.lterate (lilterator) 的 向 量 
.build(); a 

Yee, fit 1)s < 一 让 word2vec 学 习 词 向 量 





一 旦 提取 了 词 向 量 ,， 就 可 以 构建 查询 和 文档 向 量 。 
包含 查询 中 输入 的 词 项 的 数组 


(“bernhard”“riemann” 和 

















ee “influence”) 通过 对 查询 词 项 的 词 向 量 求 
INDArray dqueryVector = toDenseAverageVector (vec, 平均 ， 将 查询 词 项 转换 为 查 
terms),;} 询 向 量 
for (int i1 = 0; 1 < hits.scoreDocs.length; i++) f{ 
ScoreDoc scoreDoc = hits.scoreDocs[1]; 对 于 每 个 搜索 结果 : 忽略 Lucene 
Document doc = searcher.doc (scoreDoc.doc); 给 出 的 分 数 , 并 将 结果 转换 为 文档 
同 量 
String title = doc.get ("title"); 
获取 文 Terms docTerms = reader.getTermVector (scoreDoc.doc, 
档 标题 


"title"); 提取 该 文档 中 包含 的 词 项 (使 用 IndexReader # 


getTermVector APl) 
INDArray denseDocumentVector = VectorizeUtils 
———i> .toDenseAverageVector (docTerms, vec); 
double sim = Transforms.cosineSim(denseQueryVector, 
denseDocumentVector,) 














System.out .println(title + " : " + Sim); 
} 计算 查询 和 文档 向 量 之 间 的 
使 用 前 面 展示 的 平均 技术 将 et 


文档 词 项 转换 为 文档 向 量 
为 了 便于 阅读 ， 输 出 从 最 高 分 到 最 低 分 显示 ， 如 下 所 未 。 


riemann hypothesis - a deep dive into a 
mathematical mystery : 0.6171551942825317 





无 论 词 项 频率 有 多 低 ， 分 数 
最 高 的 文档 都 是 相关 的 


thomas bernhard biography - blo and influence 





in literature : 0.4961382746696472 < 一 一 
bernhard bernhard bernhard bernhard bernhard 第 二 个 文档 与 
bernhard ... : 0.32834646105766296 用 户 意图 无 关 
伪 文 档 riemann bernhard - life and works of bernhard 





riemann : 0.2925628423690796 、 要 
(可 能 是 ) 最 相关 的 文档 分 数 最 低 


这 很 奇怪 : 你 本 来 期 望 这 项 技术 有 助 于 获取 更 好 的 排序 , 它 却 让 伪 文 档 比 最 相关 的 文档 排序 
更 高 ! 之 所 以 出 现 这 种 现象 ， 原因 如 下 。 
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口 word2vec 没有 足够 的 训练 数据 可 用 , 提供 不 了 能 精细 表达 单词 语义 的 词 癌 量 。4 个 短文 档 
包含 的 单词 -上 下 文 对 太 少 ，word2vec 神经 网 络 不 能 据 此 准确 地 调整 其 隐藏 层 权重 。 
口 如 果 选 择 分 数 最 高 文档 的 文档 回 量 ， 则 该 癌 量 等 于 单词 “berhard” 的 词 癌 量 。 查 询问 量 
是 “bernhard” “Triemann” 和 “influence” 的 回 量 的 平均 问 量 。 因 此 ， 这 些 回 量 在 向 量 空 
间 中 将 始终 聚 在 一 起 。 
现在 ， 通 过 在 (缩小 的 ) 二 维 空间 中 绘制 生成 的 文档 查询 癌 量 , 将 第 二 条 语句 可 视 化 ， 如 图 
5-5 所 示 。 不 出 所 料 ，document4 ( doc4 ) 租 人 和 查询 (query ) 藤 入 非常 接近 ， 它 们 的 标签 几乎 





























重 登 。 

0.3 

0.2 docf __ 

0.1 
doc4 
query doc3 

0 
—0.1 
| doc2 
—0.2 
一 0.25 —0.20 —0.15 —0.10 —0.05 





图 5-5 ”查询 嵌入 和 文档 葵 入 之 间 的 相似 度 


改善 这 些 结果 的 一 种 方法 是 确保 word2vec 算法 获得 更 多 训练 数据 。 例 如 ， 可 以 从 维基 百科 
的 英文 转 储 人手， 在 Lucene 中 索引 每 个 页 面 的 标题 和 内 容 。 此 外 ， 你 还 可 以 减轻 某 些 文本 户 段 
的 影响 ， 例 如 来 目 document4 的 文本 户 段 ， 这 样 的 户 段 大 多 《〈 或 只 ) 包含 出 现在 查询 中 的 单个 词 
项 。 实 现 这 种 功能 的 一 项 稼 见 技术 是 使 用 词 项 频率 平滑 平均 文档 辐 量 。 该 技术 没有 将 每 个 词 癌 量 
除 以 文 梢 长度， 而 是 根据 以 下 伪 代 码 将 每 个 词 回 量 除 以 其 词 项 频率 。 


documentVector (wordA wordB) = wordVector (wordA) /termFreq (wordA) + 
wordVector (wordB) /termFreqg (wordB) 




















这 可 以 在 Lucene 和 DL4J 中 实现 ， 如 下 所 示 。 


public static INDArray toDenseAverageTFVector (Terms docTerms, Terms 
fieldTerms, Word2Vec word2Vec) throws IOException { 
INDArray Vector = Nd4]j .zeros (word2Vec 所 有 向 量 值 初始 化 
.getLayerSize()); 为 0 


TermsEnum docTermsEnum = docTerms.iterator(); Ne 
在 当前 文档 的 所 有 
现 有 词 项 上 迭代 
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BytesRef term; 


while ((term = docTermsEnum.next()) != null) f{ 
获得 下 一 long termFreq = docTermsEnum.totalTermFreq();} 
词 项 


INDArray wordVector = word2Vec.getLookupTable(). 获得 当前 词 项 
Vector (term.utf8ToString()) .div (termFreq),; 的 词 项 频率 值 


vector.addi (wordVector).; 


} 


Se 为 当前 词 项 提取 词 
返回 的 向 量 与 当前 词 幅 入 , 然后 将 其 值 除 
项 的 当前 向 量 相 加 以 词 项 频率 值 











在 本 书 介绍 平均 词 回 量 时 ， 你 会 看 到 这 样 的 文档 回 量 位 于 组 成 它 的 词 癌 量 的 中 心 。 如 图 5-6 
所 示 ， 词 项 -频率 平滑 可 以 帮助 分 离 生 成 的 文档 向 量 ， 使 其 不 是 位 于 词 向 量 的 中 心 ， 而 是 更 接近 
频率 较 低 ( 并 且 可 能 更 重要 ) 的 单词 。 


0.8 








0.6 


0.4 


influence mean 


0.2 





—0.1 0.0 0.1 0.2 0.3 





图 5-6” 按 词 项 频率 平滑 的 平均 词 癌 量 


词 项 “bernhard” 和 “riemann” 比 “influence” 频 这 更 高 ， 并 且 生 成 的 文档 疝 量 tf 更 接近 
influence 词 癌 量 。 这 是 一 种 积极 影响 ， 词 项 频率 较 低 的 文档 排序 较 高 ， 但 是 仍然 足够 接近 查 
询问 量 。 


riemann hypothesis - a deep dive into a mathematical 
mystery : 0.6436703205108643 

thomas bernhard biography - bio and influence in 
literature : 0.527758002281189 

riemann bernhard - life and works of bernhard 
riemann : 0.2937617599964142 

bernhard bernhard bernhard bernhard bernhard 
bernhard ...: 0.2569074332714081 
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伪 文 档 第 一 次 获得 最 低 分 。 如 果 不 用 普通 词 项 频率 ， 而 用 TF-IDF 作为 从 词 嵌入 生成 平均 文 
档 向 量 的 平滑 因子 ， 则 将 获得 以 下 排序 。 
riemann hypothesis - a deep dive into a mathematical 
mystery : 0.7083401679992676 
riemann bernhard - life and works of bernhard 
riemann : 0.4424433362483978 
thomas bernhard biography - bio and influence in 
literature : 0.3514146476984024 


bernhard bernhard bernhard bernhard bernhard 
bernhard ... : 0.09490833431482315 


在 使 用 基于 TF-IDF 的 平 请 《例子 见 图 5-7 ) 后 ， 文 档 的 排序 呈现 可 实现 范围 内 的 最 佳 排序 。 
这 次 ， 结 果 偏 离 了 严格 基于 词 项 加 权 的 相似 度 : “riemann” 的 词 项 频率 为 1 的 文档 最 相关 ( 分数 
最 高 )， 而 具有 最 高 词 项 频率 的 文档 的 分 数 最 低 。 而 从 语义 角度 来 看 ， 最 相关 的 文档 分 数 高 于 其 
他 文档 。 














0.8 
tf 
0.4 
influence mean 
0.2 





—0.1 0.0 0.1 0.2 0.3 





图 5-7 用 TF-IDF 平 请 的 平均 词 回 量 


5.5 ”评价 和 比较 


这 种 基于 TF-IDF 平均 词 向 量 的 文档 排序 方法 是 否 令 人 满意 ?在 前 面 的 示例 中 ， 你 使 用 特定 
设置 训练 了 word2vec: 层 大 小 设置 为 60, 使 用 skip-gram 模型 ， 窗 口 大 小 设置 为 6， 等 等 。 排 序 
针对 特定 查询 和 一 组 4 个 文档 进行 了 优化 。 虽 然 这 种 练习 有 助 于 学 习 不 同方 法 的 优 缺 点 , 但 是 你 
无 法 对 所 有 可 能 的 输入 查询 进行 这 种 细 粒 度 优化 , 对 于 大 型 知识 库 而 言 尤其 如 此 。 鉴 于 完全 正确 
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地 度量 相关 性 难度 过 高 ， 最 好 找到 一 种 自动 评价 排序 有 效 性 的 方法 。 因 此 ,在 使 用 其 他 方法 来 解 
决 排序 问题 之 前 【( 例如 在 神经 文本 般 入 的 帮助 下 )， 先 简要 介绍 一 些 工具 来 加 速 评价 排序 功能 。 

用 于 评价 基于 Lucene 的 搜索 引擎 有 效 性 的 一 个 优秀 工具 是 Lucene for Information Retrieval 
( Lucene4IR )。 该 工具 起 源 于 研究 人 员 和 产业 人 员 之 间 的 合作 “， 其 快速 教程 可 以 在 GitHub 上 的 
lucene4ir 页 面 找 到 。Lucene4IR 可 以 在 标准 信息 检索 数据 集 上 尝试 不 同 的 索引 、 检 索 和 排序 策略 。 
壬 尝试 使 用 它 时 ， 可 以 按 顺 序 运 行 Lucene4IR 的 IndexerApp 、 RetrievalApp 和 
ExampleStatsApp。 这 样 可 以 对 返回 结果 、 相 关 结 果 的 统计 信息 进行 索引 、 搜 索 和 记录 ， 例 如 
记录 所 选 的 Lucene 配 置 ( Similarity、Analyzers 等 )。 在 默认 情况 下 ， 这些 应 用 程序 使 用 
BM25Similaritvy 在 CACM 数 据 集 上 运行 。 

使 用 Lucen4IR 工具 执行 数据 评价 后 ， 你 可 以 使 用 trec_eval 工具 (一 种 用 于 度量 TREC 
会 议论 文集 数据 上 搜索 结果 质量 的 工具 ) 来 度量 精确 率 、 召 回 率 和 其 他 信息 检索 ( IR ) 指标 。 以 
下 例子 是 在 CACM 数据 集 上 使 用 BM25 排序 也 数 时 ，trec_eval 终端 的 输出 。 


./trec_ eval ~/lucene4ir/data/cacm/cacm.gdrels 
~/lucene4ir/data/cacm/bm25"results.res 






































num_q all 51 < 一 执行 的 查询 数量 

num_ ret all 5067 < 一 返回 结果 的 数量 

num rel all 793 < 一 相关 结果 的 数量 

num rel ret all 341 < 一 返回 的 结果 中 相关 结果 的 数量 
map all 0.2430 ”< 一 平均 精确 率 

Rprec all 0.2634 ”< 一 R 精确 率 

P_5 all 0.3608 |P 5，P_10 等 分 别 表 示 检 索 到 的 
p_10 all 0.2745 | 前 5、 前 10 个 文档 的 精确 率 








如 果 更 改 Lucene4IR 配 置 文件 中 的 Lucene Similarity 参 数 并 再 次 运行 RetrievalApp 和 和 
ExampleStatsApp， 就 可 以 观察 到 通常 用 于 信息 检索 的 精确 宗 、 召 回 率 和 其 他 度量 手段 在 数据 
集中 如 何 改 变 。 以 下 例子 是 在 使 用 基于 语言 模型 的 排序 时 ( Lucene 的 LMJelinekMercer 
Similarity”) CACM 数 据 集 上 trec_eval 终 端的 输出 。 























./trec _ eval ~/lucene4ir/data/cacm/cacm.grels 
~/lucene4ir/data/cacm/bm25_ results.res 


map all 0.2292 


Rprec LL 0 .2552 
P_5 人 O33 
P_10 all 0.2529 


在 这 种 情况 下 ，similarity 被 切换 ,以 使 用 语言 模型 来 估计 相关 性 的 概率 。 结 果 相 比 使 用 
BM25 时 差 ， 所 有 指标 值 部 略 低 。 


GD 参见 Leif Azzopardi 等 人 的 文章 “Lucene4IR 一 Developing Information Retrieval Evaluation Resources using Lucene”， 
刊载 于 4CM SIGIR Forum， 第 50 卷 , 第 2 期 ,， 2016 年 12 月 。 
@) 参见 Chengxiang Zhai 和 John Lafferty 的 文章 “AStudy of Smoothing Methods for Language Models Applied to Ad Hoc 


Information Retrieval” 。 
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将 这 些 工具 结合 使 用 的 好 处 在 于 , 你 可 以 通过 一 系列 快速 简单 的 步骤 评价 决策 对 搜索 结 末 准 
确 性 的 影响 。 虽然 这 并 不 能 保证 你 获得 完美 的 排序 , 但 你 可 以 使 用 此 方法 为 搜索 引擎 和 数据 定义 
基础 排序 功能 。 在 简要 介绍 Lucene4IR 之 后 ， 本 书 辟 励 你 (例如 基于 word2vec ) 开发 目 己 的 
四] 全 并 查看 它 是 否 与 BM2D00 1 由 EY 有 所 不 同 ， 等 等 。 


基于 平均 词 骨 入 的 相似 度 


使 用 “bernhard riemann influence” 示 例 查 询 的 小 实验 展示 了 使 用 词 癌 量 生成 的 文档 能 入 的 有 
效 性 。 同 时 ， 在 现实 生活 中 ， 人 们 需要 更 好 的 证 据 来 证 明 检 索 模 型 的 有 效 性 。 在 本 节 中 ， 你 将 基 
于 平均 word2vec 词 癌 量 实现 Similarity， 然 后 使 用 Lucene4IR 项 目 度量 它们 在 小 型 数据 集 上 
的 有 效 性 。 这 些 度量 将 有 助 于 了 解 这 些 排序 模型 的 整体 表现 如 何 。 

正确 扩展 Lucene Similarity 是 一 项 艰巨 的 任务 ， 你 需要 对 Lucene 的 工作 原理 有 所 了 解 。 
本 节 将 重点 关注 Similarity API 的 相关 部 分 ， 以 使 用 文档 能 入 对 查询 的 文档 进行 评分 。 首 先 ， 
创建 一 个 WordEmbeaddqingsSimilarity， 它 可 以 通过 平均 词 能 人 创建 文档 能 和 人。 然后 ， 还 需要 
准备 训练 好 的 word2vec 模型 ， 这 种 模型 能 够 平滑 平均 词 向 量 ， 以 便 将 它们 组 合 到 文档 向 量 中 。 
另外 ， 你 还 需要 Lucene 字段 ， 以 便 从 中 获取 文档 内 容 。 


public class WordEmbeddingsSimilarity extends Similjarity { 


























public WordEmbeddingsSimilarity (Word2Vec word2Vec, 
String fieldName, Smoothing smoothing) { 
this.word2Vec = word2Vec; 
this.fieldName = fieldName; 
this.smoothing = smoothing; 


} 


Lucene Similarity 将 实现 以 下 两 种 方法 。 


QOverride 
public SimWeight computeWeight (float boost, 
CollectionStatistics collectionStats, TermStatistics... termStats) { 
return new EmbeddingsSimWeight (boost, collectionStats, termStats),; 


QOverride 
public SimScorer simScorer (SimWeight weight, 
LeafReaderContext context) throws IOException { 





return new EmbeddingsSimScorer (weight, context).,; 


} 


这 个 任务 最 重要 的 部 分 是 实现 EmbeddingsSimScorer， 它 负责 对 文档 评分 。 


private class EmbeddingsSimScorer extends SimScorer { 
QOverride 
public float score(int doc, fljoat freq) throws IOFException f{ 
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INDArray denseQueryVector = getQueryVector();} 生成 查询 

INDArray denseDocumentVector = VectorizeUtils 向 量 
.toDenseAverageVector (reader.getTermVector (doc, er 
fieldName), reader.numDocs ( ) ， 


word2Vec, smoothing).; S 于 

生成 文档 
return (float) Transforms.cosineS1im( 向 量 
吕 j 蛙 


denseQueryVector, denseDocumentVector).; 











} 计算 文档 和 查询 向 量 之 
加 的 余 经 相似 度 ， 并 将 
其 用 作文 档 分 数 








如 以 上 代码 所 示 ，score 方法 和 它 在 前 文中 的 功能 差不多 ， 只 是 这 次 它 在 Similarity 类 
中 实现 。 它 与 前 文中 方法 的 唯一 区 别 是 ，toDenseAverageVector 工具 类 还 采用 了 一 个 
Smoothing 参数 ， 该 参数 指定 了 如 何 求 平均 词 癌 量 。 


public static INDArray toDenseAverageVector (Terms docTerms, double n, 
Word2Vec word2Vec, WordEmbeddingsSimilarity.Smoothing smoothing) 
throws IOException { 
INDArray Vector = Nd4]j .zeros (word2Vec.getLayerSize()); 
if (docTerms != null) { 
TermsEnum docTermsEnum = docTerms.iterator(),; 
BytesRef term; 
while ((term = docTermsEnum.next()) != null) f{ 
INDArray wordVector = word2Vec.getLookupTable() .vector 
term.utf8ToString());} 
if (wordVector != null) f{ 
double smooth; 
switch (smoothing) { 
Case MEAN : 
smooth = docTerms.size(),; 
break; 
Case TF: 
smooth = docTermsEnum.totalTermFreq();} 
break; 
Case IDF: 
smooth = docTermsEnum.docFreqd();} 
break; 
Case TF_IDF: 
smooth = VectorizeUtils.tfidf (n, docTermsEnum.totalTermFreq(), 
docTermsEnum.docFreg());} 
break; 
default: 
smooth = VectorizeUtils.tfidf (n, docTermsEnum.totalTermFreq(), 
docTermsEnum.docFreg());) 














} 


vector.addi (wordVector.div (smooth)); 


} 


return Vector ，; 
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getQueryVector 作用 完全 相同 ,但 它 不 是 在 docTerms 上 迭代 ， 而 是 在 查询 中 的 词 项 上 
迭代 。 

Lucene4IR 项 目 附带 了 用 于 对 CACM 数据 集 进行 评价 的 工具 , 你 可 以 使 用 不 同 的 Similarity 
进行 评价 。 按 照 Lucene4IR README 中 的 说 明 ， 你 可 以 生成 统计 信息 以 评价 不 同 的 排序 。 例 如 ， 
下 面 是 对 前 5 个 结果 使 用 不 同 的 Similarity 得 到 的 精确 率 。 





WordEmbeddingsSimilarity: Q..2.9:93 
ClassicSimilarity: 0.2784 
BM25Similarity: 0.2706 


LMJelinekMercerSimilarity: 0.2588 


这 些 数字 很 有 意思 。 首 先 ， 使 用 TF-IDF 权重 方案 的 VSM 不 是 最 差 的 结果 。 词 艇 入 的 
similarity 得 出 的 相似 度 比 其 他 方法 高 2%， 这 还 不 错 。 但 是 ， 从 这 个 快速 评价 中 可 以 很 容易 
地 看 出 ， 排 序 模型 的 有 将 性 可 能 会 随 数据 变化 , 因此 在 选择 模型 时 应 该 特别 注意 ， 必 须 始终 根据 
搜索 引擎 的 实际 使 用 情况 来 度量 理论 上 的 结 采 和 评价 。 

决定 对 哪些 内 容 进 行 排序 优化 也 很 重要 。 例如 , 通常 情况 下 ,同时 获得 高 精确 率 和 高 召回 率 
是 很 难 的 。 现 在 介绍 另 一 个 评价 排序 模型 有 效 性 的 指标 : 归 一 化 折 损 累计 增益 ( normalized 
discounted cumulative gain，NDCG )。NDCG 根据 文档 在 结果 列表 中 的 位 置 来 度量 其 有 用 性 ， 或 
者 叫 增 蔓 ( gain )。 增 益 从 结果 列表 的 顶部 标 加 到 底部 ， 因 此 每 个 结果 贡献 的 增益 随 肴 排序 降低 
而 降低 。 如 果 你 通过 CACM 数据 集 评 价 先 前 Similarity 的 NDCG， 结 果 甚 至 会 更 有 趣 。 


















































WordEmbeddingsSimilarity: 0.3894 
BM25Similarity: 0.3805 
ClassicSimilarity: 0.3805 





LMJelinekMercerSimilarity: 0.3684 


VSM 和 BM25 表现 完全 相同 ， 而 基于 词 般 入 的 排序 函数 获得 了 稍 好 的 NDCG 值 。 因 此 ， 如 
果 对 前 5 个 结果 的 更 精确 排序 感 兴趣 ,你 可 能 应 该 选择 基于 词 般 入 的 排序 ,但 是 这 个 评价 也 表明 ， 
当 NDCG 都 比较 高 时 ， 各 种 排序 函数 之 间 的 差异 并 不 大 。 

此 外 ,最 近 的 研究 显示 ,还 有 一 个 较 好 的 解决 方 条 ， 即 同时 使 用 多 个 评分 函数 来 混合 经 典 排 
序 模型 和 神经 排序 模型 。" 你 可 以 使 用 Lucene 中 的 Multisimilarity 类 来 实现 它 。 如 果 执 行 相同 
的 评价 但 采用 不 同 的 Multisimilarity 风 格 ， 你 可 以 看 到 混合 语言 建 模 和 词 回 量 产 生 最 佳 
NDCG 值 。 




















WV+BM25 : 0.4229 
WV+LM : 0.4073 
WV+Classic : 0.3973 
BM25+LM : 0 .3927 
Classic+LM : 0.3698 
Classic+BM25 : 0.3698 


GD 参见 Dwaipayan Roy 等 人 的 文章 “Representing Documents and Queries as Sets of Word Embedded Vectors for Information 
Retrieval” ， 刊 载 于 Neu-IR ‘16 SIGIR Workshop on Neural Information Retrieval (July 21, 2016 Pisa, Ttaly)。 


5 6 总 结 


口 像 VSM 和 BM25 这 样 的 经 典 检索 模型 为 文档 排序 提供 了 良好 的 基础 , 但 它们 缺乏 理解 文 
本 语义 的 能 

口 神经 信息 检索 模型 旨 在 为 文档 排序 提供 更 好 的 语义 理解 能 

口 可 以 组 合 单 词 的 分 布 式 表示 ( 如 word2vec 生成 的 表示 ), 从 而 为 查询 和 文档 生成 文档 般 入 。 

口 平均 词 艇 入 可 用 于 生成 有 效 的 Lucene similarity， 当 对 信息 检索 数据 集 进行 评价 时 ， 
这 样 做 可 以 获得 民 好 的 结 
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本 章 内 容 

口 用 上 段 向 量 生 成 文档 租 入 

口 用 上段 向 量 排序 

口 检索 相关 内 容 

口 用 段 回 量 改善 相关 内 容 的 检索 














第 5 章 通 过 建立 一 个 基于 平均 词 艇 入 的 排序 函数 ， 介 绍 了 神经 信息 检索 模型 。 我 们 对 
word2vec 生成 的 词 朋 入 求 平均 ， 以 获取 文档 藤 入 ( document embedding )。 文 档 艇 入 是 一 个 单词 
序列 的 密集 表示 ， 在 根据 用 户 意图 对 文档 排序 时 精度 很 高 。 

然而 ， 常 用 检索 模型 ( 比如 基于 TF-IDF 和 BM25 的 向 量 空间 模型 ) 的 缺点 是 ， 它 们 在 对 文 
档 进行 排序 时 只 考虑 单个 词 项 。 这 种 方法 可 能 导致 所 取得 的 结果 为 次 优 结 果 ， 因为 词 项 的 上 下 文 
信息 被 丢弃 了 。 考 虑 到 这 个 缺点 ,本草 将 尝试 生成 文档 般 入 ,不 仪 天 注 单个 单词 ， 而且 还 关注 围 
绕 这 些 单词 的 整个 文本 片段 。 这 些 从 上 下 文 增强 的 文档 般 入 创建 的 癌 量 表示 , 会 尽 可 能 地 携带 更 
多 语义 信息 ， 从 而 进一步 提 高 排序 孔 数 的 精确 率 。 

词 舱 入 对 于 捕获 单词 语义 非常 有 用 ,但 是 文本 文档 的 意义 和 深层 语义 并 不 只 依赖 于 单词 的 意 
义 。 比 起 只 学 习 单 词语 义 ， 最 好 能 够 学 习 短 语 或 较 长 文本 卢 段 的 语义 。 第 5 章 通 过 平均 词 舱 入 实 
现 了 这 一 点 。 再 进一步 ， 你 会 发 现在 准确 率 方 面 还 可 以 做 得 更 好 。 本 和 曹 将 探讨 一 种 直接 学 习 文 档 
通信 的 技术 。 使 用 word2vec 神经 网 络 学 习 算 法 的 扩展 ， 可 以 为 不 同 粒度 的 文本 序列 〈 句 子 、 段 
沙 、 文 档 等 ) 生成 文档 能 入 。 你 将 体验 这 项 技术 ， 并 看 到 它 在 排序 时 如 何 提供 更 好 的 排序 评分 。 

此 外 , 本章 还 将 介绍 如 何 使 用 文档 能 人 来 查找 相关 内 容 。 相 关内 容 (related content ) 由 语义 
上 相关 的 文档 〈 文 本 、 视 频 等 ) 组 成 。 当 显示 单个 搜索 结果 时 ( 例如 ， 当 用 户 在 搜索 结果 网 页 中 
单 击 它 时 )， 通 篆 会 显示 其 他 内 容 ， 例 如 相似 的 主题 或 由 同一 作者 创建 的 内 容 。 这 样 做 有 助 于 吸 
引用 户 的 注意 力 ， 并 提供 他 们 可 能 喜欢 却 没 有 出 现在 搜索 结果 第 一 页 上 的 内 容 。 


6.1 从 词 租 入 到 文档 其 入 


本 市 将 介绍 word2vec 的 一 个 扩展 , 它 的 目的 是 在 神经 网 络 训练 中 和 学习 文档 舱 入 。 不 同 于 之 前 
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使 用 过 的 混合 词 癌 量 方法 〈 例 如 基于 TF-IDF 权 重 平 均 词 回 量 并 最 终 平滑 它们 )， 这 种 方法 在 捕获 
文档 语义 时 通常 会 得 到 更 好 的 结果 。 这 种 方法 也 称 为 段 同 量 ( paragraph vector )， 它 扩展 了 两 种 
word2vec 架 构 [ continuous-bag-of-words ( CBOW ) 和 skip-gram 模 型 |， 合 并 了 上 下 文中 当前 文档 
的 信息 “。word2vec 使 用 一 定 大 小 的 文本 片段 [ 称 为 窗口 ( window ) ] 来 执行 词 艇 人 的 非 监督 学 
习 ， 以 训练 神经 网 络 根据 给 定单 词 预测 上 下 文 ， 或 者 根据 给 定 上 下 文 预测 单词 。 

具体 来 说 ，CBOW 神经 网 络 有 三 层 ( 见 图 6-1 ): 

口 包含 上 下 文 单词 的 输入 层 ; 

口 对 每 个 单词 包含 一 个 癌 量 的 隐藏 层 ; 

口 包含 需要 预测 的 单词 的 输出 层 。 











图 6-1 word2vec CBOW 模型 


基于 段 回 量 的 方法 提供 的 直 党 知识 , 能 用 一 个 表示 文档 的 标签 来 装饰 或 替换 上 下 文 , 这 样 神 
经 网 络 就 能 学 会 把 单词 和 上 下 文 与 标签 天 联 起 来 ， 而 不 是 将 单词 与 其 他 和 单词 关联 。 

扩展 CBOW 模 型 ,使 输入 层 含有 包含 当前 文本 刻 段 的 文档 的 标签 。 在 训练 期 间 ， 每 个 文本 片 
段 用 标签 打上 标记 。 这 些 文本 厂 段 既 可 以 是 整个 文档 ,也 可 以 是 文档 的 一 部 分 ， 如 厂 、 段 落 或 避 
子 。 这 个 标签 的 值 ( value ) 通常 不 重要 “， 标签 可 以 是 doc_123456 或 tag-foo-bar 或 任何 类 型 的 机 
估 生 成 的 字符 串 。 重要 的 是 标签 在 文档 中 应 该 是 了 唯一 的 ， 两 个 不 同 的 文本 片段 不 应 以 同一 标签 为 
标记 。 

如 图 6-2 所 示 ， 该 模型 的 架构 与 CBOW 类 似 ， 它 只 需 在 输入 层 中 添加 一 个 表示 文档 的 输入 
标签 。 因 此 ,隐藏 层 需要 为 每 个 标签 配备 一 个 向 量 ， 以 便 在 训练 的 最 后 ， 每 个 标签 如 有 一 个 癌 量 
表示 。 有 趣 的 是 , 这 种 方法 允许 你 处 理 不 同 粒度 的 文档 。 你 可 以 对 整个 文档 或 文档 的 较 小 部 分 ( 如 
段落 或 句子 ) 使 用 标签 。 这 些 标 签 作 为 一 种 记忆 , 将 上 下 文 与 (缺失 的 ) 单词 联系 起 来 。 这 种 方 
法 被 称 为 段 向 量 的 分 布 式 记忆 模型 (PV-DM )。 



































中 参见 Quoc Le 和 Tomas Mikolov 的 文章 “Distributed Representations of Sentences and Documents”。 
Q 除非 你 打算 在 训练 以 外 使 用 它 ， 例 如 在 训练 完成 后 ， 将 网 络 生 成 的 标签 用 作 索 引文 档 时 的 文档 标识 符 。 
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the cat sat 


Paragraph 
ID 


图 6-2” 段 向 量 的 分 布 式 记 忆 模 型 
在 像 “Triemann hypothesis - a deep dive into a mathematical mystery” 这 样 的 文档 中 ， 因 为 文本 
非常 短 ， 所 以 使 用 单个 标签 也 合理 。 但 是 对 于 较 长 的 文档 ， 比 如 维基 百科 页 面 ， 则 最 好 为 每 个 段落 
或 句子 创建 一 个 标签 。 请 看 Riemann 的 更 文 维基 百科 页 面 的 第 一 段 ，“Georg Friedrich Bernhard 


Riemann (September 1826 —20 July 1866) was a German mathematician who made contributions to analysis, 














number theory, and differential geometry. In the field of real analysis, he 1s mostly known for the first rigorous 
formulation of the integral, the Riemann integral, and his work on Fourier series”。 你 可 以 用 不 同 的 标签 来 
标记 每 个 句子 并 生成 一 个 向 量 表示 ， 这 有 助 于 找到 相似 的 句子 ， 而 不 是 相似 的 维基 百科 页 面 。 

段 回 量 还 用 分 布 式 词 袋 (PV-DBOW ) 模型 扩展 了 word2vec skip-gram 模型 。 连 续 skip-gram 
模型 使 用 三 层 神经 网 络 : 

口 包含 一 个 输入 单词 的 输入 层 ; 

口 包含 词汇 表 中 每 个 单词 的 向 量 表示 的 隐藏 层 ; 

口 包含 多 个 单词 的 输出 层 ， 这 些 单 词 表示 根据 输入 单词 预测 的 上 下 文 。 

售 段 回 量 的 DBOW 模型 ( 见 图 6-3 ) 输入 的 是 标签 而 不 是 单词 , 因此 网 络 学 习 预 测 的 文本 部 
分 ,属于 那些 市 标签 的 文档 、 段 落 或 句子 。 


~ 

















Paragraph 
ID 


图 6-3 含 段 回 量 的 DBOW 模型 
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PV-DBOW 和 PV-DM 模型 都 可 以 用 来 计算 标记 过 的 文档 的 相似 度 。 就 像 在 word2vec 中 一 样 ， 
在 用 于 捕获 文档 语义 时 ， 它 们 获得 的 结果 好 得 怀 人 人。 现在， 尝试 基于 DL4J ParagraphVectors 
实现 ， 在 示例 中 使 用 上 段 向 量 。 


配置 段 向 量 
ParagraphVectors paragraphVectors = new ParagraphVectors.Builder() 
.iterate (iterator) 











.layerSize(50) < 一 一 一 一 设置 文档 藤 入 维 数 
.minWordFrequency (7) 
.SequenceLearningAlgorithm(new DM<>()) 
.tokenizerFactory (new DefaultTokenizerFactory ()) 选择 被 选中 的 段 向 量 模 
全 型 ， 在 本 例 中 是 PV-DM 
DaragraphVvVectors .flt()， 
如 同 在 word2vec 里 ， 你 可 以 在 输入 数据 上 元 成 配置 
为 学 习 中 要 使 用 的 单词 设置 最 运行 (无 监督 ) 
小 频率 国 值 学 习 


与 word2vec 类 做， 可 以 询问 段 癌 量 模型 如 下 问题 。 
口 距离 标签 xyz 最 近 的 标签 是 什么 ”这 将 有 助 于 找到 最 相似 的 文档 ( 因为 每 个 文档 都 有 标签 )。 
口 给 定 一 段 新 文 本 ， 最 近 的 标签 是 什么 ? 这 证 在 不 属于 训练 集 的 文档 或 查询 上 使 用 段 回 量 
成 为 可 能 。 
如 果 使 用 维基 百科 页 面 中 的 标题 来 训练 段 癌 量 , 则 可 以 查找 那些 标题 在 语义 上 与 输入 文本 相 
似 的 维基 百科 页 面 。 假 设 你 想 了 解 到 南美 洲 长 途 旅 行 的 信息 , 你 可 以 从 刚刚 训练 过 的 段 回 量 模型 
中 获取 与 句子 “Travelling in South America” 最 接近 的 3 个 文档 。 


CoLLecetion<SErindgy Stringes = paradgraphVectores Eg 六 守 
.nearestLabels ("Travelling in South America" 叶 到 与 所 给 输入 字符 串 
最 近 的 标 釜 


for (String S : strings) { 


int docId = Integer.parselint (s.substring(4)).; Se ed 
每 个 标签 的 形式 都 是 “doc_ 

二 

Document document = reader.document (doc1d); + documentId， 内 此 要 从 康 




















引 中 获取 文档 ， 你 只 需要 文档 
标识 符 部 分 





) 
System.out .PrIntlnl(dqocument .get (fieldName)); 

1 在 控制 台 上 打印 
检索 具有 给 定 ID 的 文档 标题 
Lucene 文档 

< 人、 

输出 如 下 。 

Transport in Saio Tomé andq Principe 岂 工 过 名 兰 了 让 

六 
Transport in South Africa i 
不 太 相关 Telecommunications in Sio Tomé and Principe 2 Rh 




















如 琳 使 用 整个 维基 百科 页 面 的 文本 ( 而 不 仅 是 标题 ) 来 训练 段 回 量 , 你 会 得 到 更 相关 的 结 
这 主要 是 因为 像 word2vec 这 样 的 段 向 量 通 过 查看 上 下 文 来 学 习 文 本 表示 ， 而 在 短文 本 ( 标题 ) 
上 比 在 长 文本 〈 整 个 维基 百科 页 面 ) 上 更 难 。 
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使 用 整个 维基 百科 页 面 的 文本 进行 训练 时 的 输出 如 下 。 


Lt Pen eg (拉丁 美洲 ) 
Crime angd violence in Latin America (拉丁 美洲 的 犯罪 和 暴力 ) 
Overseas Adventure Travel (海外 探险 旅游 ) 








像 这 些 由 段 癌 量 后 成 的 文档 能 入 ， 旨 在 以 癌 量 的 形式 提供 一 个 对 整个 文本 语义 的 恨 好 表示。 
你 可 以 在 搜索 上 下 文中 使 用 它们 ,以 解决 排序 中 的 语义 理解 问题 。 这 些 朋 入 之 间 的 相似 度 更 多 依 
赖 于 文本 的 意义 ， 而 较 少 依赖 于 简单 的 词 项 匹配 。 


6.2 ”在 排序 中 使 用 段 向 量 


在 排序 中 使 用 段 回 量 很 简单 ， 既 可 以 让 模型 为 训练 过 的 标签 或 文档 提供 回 量 , 也 可 以 为 一 段 
新 文本 〈 比如 未 见 过 的 文档 或 查询 ) 训练 一 个 新 问 量 。 在 使 用 词 回 量 时 ， 你 必须 决定 如 何 组 合 它 
们 (之 前 你 在 排序 时 完成 该 步 ， 但 你 也 可 以 在 索引 时 进行 该 步 ), 但 基于 上段 向 量 的 模型 让 获取 查 
询 和 文档 能 入 变 得 简单 ， 从 而 方便 了 比较 和 排序 。 

在 开始 使 用 段 回 量 进行 排序 之 前 ， 先 后 退 一 步 。6.1 节 谈 到 使 用 Lucene 中 索引 的 数据 来 训练 
段 回 量 模 型 。 这 可 以 通过 实现 LabelAwareIterator 来 完成 ， LabelAwareIterator 是 一 个 
文档 内 容 迭 代 帮 , 它 为 每 个 Lucene 文 档 分 配 一 个 标签 ,用 Lucene 内 部 文档 标识 符 标 记 每 个 Lucene 
文档 ， 生 成 一 个 doc_1234 这 样 的 标签 。 

















FieldValuesLabelAwareIterator 从 IndexReader 内 容 将 从 单个 字段 获取 , 而 不 是 从 Lucene 
(搜索 引擎 上 的 读 取 视 图 ) 上 获取 序列 文档 中 的 所 有 可 能 字段 获取 


public class FieldValuesLabelAwareIterator implements LabelAwareIlterator { 


private final IndexReader reader:; 
private final String field; 


rivate int currentId = 0; ‘| 4 sy 
SR 将 正在 获取 的 当前 文档 的 
示 识 符 初 始 化 大 
re 标识 符 初 始 化 为 0 
public boolean hasNextDocument () { 


return currentId < reader.numDocs ();， 
} 如 果 当 前 标识 符 小 于 索引 中 的 文档 
总 数 ， 则 需要 读 取 更 多 文档 








QOverride 
public LabelledDocument nextDocument () { 
If (!hasNextDocument ()) { 


return null; 


} 


es a 
Document document = reader.document (currentIgd, 从 Lucene 索引 
GoelLIedtions eilenTela) 获取 上 下 文 


LabelledDocument labelledDocument = new 


LabelledDocument (); 创建 一 个 新 的 LabelledDocument, 用 于 
labelledDocument addLabel ("doe ” 训练 DL4J 的 ParagraphVector ( 段 向 
+ currentId) ; 量 )。 内 部 Lucene 标识 符 用 作 标 签 
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lJabelledDocument .setContent (document 
.getField(field) .stringValue());} 


Le uni aoel Loo Deon 在 LabelledDocument 中 设置 
} catch (IOException e) { 指定 的 Lucene 字段 的 内 容 
throw new RuntimeException(e),; 
} finally f{ 
currentId++; 


} 
以 下 面 的 方式 初始 化 段 向 量 的 迭代 带 。 


IndexReader reader = DirectoryReader.open(writer); < 创建 一 个 IndexReader 
String fieldName = "title"; < 一 一 一 一 一 一 一 一 定义 将 要 使 用 的 字段 
FieldValuesLabelAwarelterator iterator = new 
FieldValuesLabelAwarelterator (reader, fieldName); < 一 创建 迭代 器 
ParagraphVectors paragraphVectors = new ParagraphVectors.Builder() 


.literate (iterator) 
build(); wa 在 ParagraphVector 中 
| ”9 一个 了 向 量 模型 设置 适 代 器 


(有待 训练 ) 
让 上 段 向 量 进行 无 监督 ) 


学 习 








paragraphVectors.fit().; 


一 旦 模型 完成 训练 ， 就 可 以 在 检索 后 使 用 段 向 量 重新 给 文档 评分 。 


尝试 为 当前 查询 获取 已 有 的 向 量 表 示 。 这 


tp 可 能 会 失败 ， 因 为 你 对 模型 的 训练 是 基于 
ea 搜索 引擎 内 容 ， 而 不 是 查询 





IndexSearcher searcher = new IndexSearcher (reader).， 





INDArray gqueryParagraphVector = paragraphVectors 
.getLookupTable() .vector (gueryString);} 





if (gqueryParagraphVector == null) { gs 
可 量 不 由 三 由 经 
GUervParaograDHVector = DaradadgrapHVectors 如 果 查 询 向 量 个 存在 ， 则 让 底层 神经 网 络 
在 那 段 新 文本 上 训练 并 推断 向 量 〈 其 标签 


.inferVector (queryString),; 


将 是 字符 串 的 整个 文本 ) 


QueryParser parser = new QueryParser (fieldName, new WhitespaceAnalyzer()); 
Ouery query = parser.parse (queryString),; 


TopDocs hits = searcher.search (guery, 10); < 二 一 一 一 执行 搜索 
for (int i = 0; 1 < hits.scoreDocs.length; i++) { 
ScoreDoc scoreDoc = hits.scoreDocs[1i]; 
Document doc = searcher.doc (scoreDoc.doc); 
为 当前 文档 创 
建 标 签 


String label "doc_" + ScoreDoc .aqoc ; 
INDArray documentParagraphVector = paragraphVectors 
.getLookupTable() .vector (Label) ; 
dUuUDle. SCOores, ES Tromstormne. Cosmes rl 为 有 指定 标签 的 文档 
获取 现存 的 向 量 
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queryParagraphVector, documentParagraphVector),;} 





String title = doc.get (fieldName),; 
System.out .println(title + " : " + Score); 在 控制 台 上 


| 打印 结果 
计算 查询 与 文档 向 量 的 余弦 相似 度 分 数 














这 段 代 码 说 明 , 在 不 使 用 词 肯 入 的 情况 下 ,获取 查询 和 文档 的 分 布 式 表示 有 多 容易 。 为 方便 
阅读 ， 绪 采 按 分 数 从 高 到 低 排列 〈 代 码 示例 不 包含 这 一 步 又 )。 这 个 排序 与 返回 文档 的 实际 相关 
性 非常 吻合 ， 且 分 数 与 文档 相关 性 一 致 。 


riemann hypothesis - a deep dive into a mathematical mystery : 0.77497977 


riemann bernhard - life and works of bernhard riemann : 0.76711642 
thomas bernhard biography - bio and influence in literature : 0.32464843 
bernhard bernhard bernhard bernhard bernhard bernhard ... : 0.03593694 


最 相关 的 两 份 文档 分 数 较 高 (有 旦 非常 接 近 )， 第 三 份 文档 分 数 明显 较 低 。 这 是 正 第 的 ， 因 为 
它 是 个 不 相关 的 文档 。 最 后 ， 伪 文档 的 分 数 接近 0。 
基于 段 向 量 的 相似 度 


你 可 以 引入 ParagraphVectorsSimilarity( 段 问 量 相似 度 )。 它 使 用 段 癌 量度 量 查 询 和 
文档 之 间 的 相似 度 。 这 种 相似 度 的 有 趣 之 处 在 于 SimScorer#score API 的 实现 。 











提取 查询 文本 的 段 向 量 。 
如 果 以 前 从 未 见 过 该 查 
询 ， 则 意味 着 要 为 段 向 量 
网 络 执行 一 次 训练 
QOverride 
public float score(int docId, float freq) throws IOException { 
INDArray denseQueryVector = paragraphVectors 








.IntervVvector(duery), 为 文档 提取 上 段 向 量 ， 文 档 标 
Seiio Label =. WOE TT- .000r9, 签 等 于 其 文档 标识 符 


INDArray documentParagraphVector = paragraphVectors 
.getLookupTable() .vector (label); 

1if (documentParagraphVector == null) { 

LabelledDocument document = new LabelledDocument ( ) ; 

document .setLabels(Collections.singletonList (label)); 

document .setContent (reader.document (docId) .getField (fieldName) 
.StringValue()); 

documentParagraphVector = paragraphVectors 
.inferVector (document ); 











} 


return (fljoat) Transforms.cosineSim( 
denseQueryVector, documentParagraphVector).; 





} 计算 查询 和 文档 段 向 
ee 量 之 间 的 余弦 相似 
如 果 找 不 到 具有 给 定 标签 (docId) 的 器 量 5 则 度 并 将 其 用 作 给 定 


有 向 量 网 络 上 执行 一 次 训练 以 提取 新 向 量 
在 段 向 量 网 络 上 执行 一 次 训练 以 提取 新 向 量 文档 的 分 数 
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6.3 ”文档 能 入 及 相关 内 容 


用 户 可 能 经 历 过 这 样 的 情况 : 某 个 搜索 结果 很 好 , 但 因为 某 些 原因 ， 它 又 不 够 好 。 想 想 在 一 
个 零售 网 站 搜索 “a book about implementing neural network algorithms”， 你 得 到 的 第 一 条 搜索 结 
果 是 一 本 名 为 Learning to Program Neural Nets( 学 习 神 经 网 络 编程 ) 的 书 。 你 点 击 这 个 结果 ， 进 
入 一 个 包含 这 本 书 更 多 细节 的 页 面 。 你 意识 到 上 自己 喜欢 该 书 中 的 内 容 。 该 书 作 者 是 这 方面 公认 的 
权威 ， 但 是 他 的 教学 示例 使 用 的 编程 语言 是 Python， 而 你 并 不 太 熟 悉 这 门 语 言 。 你 可 能 想 知道 : 
“有 没有 主题 类 似 ， 但 是 用 Java 来 教授 神经 网 络 编程 的 书 ? ”和 零售 网 站 可 能 会 回 你 展示 一 个 相关 
图 书 列表 , 并 希望 你 如 果 不 想 买 上 面 那 本 用 Python 写 示 例 的 书 , 可 以 购买 其 他 内 容 类 似 的 书 (其 
中 可 能 包括 用 Java 写 示例 的 书 )。 

本 方 将 展示 如 何在 搜索 引 敬 中 找到 额外 的 文档 ,以 提供 这 些 相 似 的 内 容 。 这些 文 档 之 所 以 相 
似 , 不 仅 是 因为 它们 来 自 同一 位 作者 或 使 用 了 一 些 相同 的 单词 , 还 因为 两 个 文档 之 间 在 语义 上 有 
关联 。 这 应 该 让 你 回想 起 了 之 前 在 使 用 基于 有 段 器 量 的 文档 艇 入 对 子 数 进行 排序 时 ,本 书 讨 论 过 的 
语义 理解 问题 。 


6.3.1 ” 搜索、 推荐 和 相关 内 容 


为 了 说 明 在 搜索 引 敬 中 指出 合适 的 相关 内 容 有 多 么 重要 ， 先 来 考虑 用 户 在 视频 共 至 平台 (如 
YouTube ) 上 执行 的 动作 流 。 此 时 ， 主 要 ( 其 至 是 唯一 ) 的 界面 是 用 户 输入 查询 的 搜索 框 。 假 设 
用 户 在 搜索 框 中 输入 lucene tutorial， 并 点 击 搜 索 按 钮 。 然 后 ， 界 面 显 示 搜 索 结 果 列 表 ， 而 
用 户 最 终 选 择 一 个 他 们 感 兴趣 的 条 目 。 之 后 ， 用 户 通常 会 停止 搜索 ， 转 而 点 击 “Related”( 相关 ) 
框 或 列 中 的 视频 。 对 标题 为 “Lucene tutorial” 的 视频 而 言 , 典型 的 相关 推荐 可 以 是 标题 为 “Lucene 
for beginners” “Intro to search engines” 和 “Building recommender systems with Lucene” 的 视频 。 
用 户 可 以 任意 点 击 这 些 推荐 视频 。 例 如 ， 如 果 他 们 从 “Lucene tutorial” 视 频 中 学 到 了 足够 多 的 知 
识 ， 可 能 会 跳 到 一 个 更 高 级 的 视频 。 相 反 ， 如 果 他 们 意识 到 要 了 解 如 何 使 用 Lucene 还 需要 额外 
的 基础 知识 ,那么 他 们 可 能 希望 观看 男 一 个 入 门 视频 , 或 者 一 个 介绍 搜索 引 敬 的 视频 。 这 个 处 理 
检索 内 容 ， 然 后 导航 到 相关 内 容 的 过 程 可 以 无 限 地 进行 。 因 此 ,提供 相关 内 容 对 于 最 大 限度 地 满 
足 用 户 需求 至 关 重 要 。 

“Related” 框 的 内 容 甚 至 可 以 将 用 户 意 图 转移 到 与 最 初 的 查询 相去 其 远 的 地 方 。 在 前 面 的 例 
子 中 ， 用 户 希 望 学 习 如 何 使 用 Lucene。 搜 索引 擎 提供 了 一 个 相关 条 目 ， 其 主题 并 非 与 Lucene 下 
接 相 关 ， 而 是 关于 基于 Lucene 构建 一 个 用 于 生成 推 基 的 机 需 学 习 系 统 。 这 是 一 个 很 大 的 转变 : 
从 需要 关于 运用 Lucene 的 信息 ， 到 学 习 基 于 Lucene 的 推荐 系统 (一 个 更 高 级 的 主题 )。 

这 个 简单 的 例子 也 适用 于 电子 商务 网 站 。 这 类 网 站 的 主要 目的 是 销售 商品 ,因此 尽管 用 户 被 
或 励 去 搜索 ( 可 能 ) 需要 的 产品 , 但 是 他 们 也 被 大 量 “ 为 你 推荐 ”的 项 目 淹没 。 这 些 推 荐 基于 以 
下 因 系 : 

口 用 户 曾经 搜索 过 哪些 产品 ; 
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口 用 户 搜 索 哪 个 主题 最 频繁 ; 

口 新 产品 ; 

口 用 户 最 近 看 过 ( 浏览 或 点 击 过 ) 哪些 产品 。 

这 些 海量 推荐 的 关键 在 于 用 户 驻 留 (user retention ): 电子 两 务 网 站 希望 用 户 尽 可 能 长 时 间 地 
浏览 页 面 和 执行 搜索 ， 并 希望 销售 的 产品 引起 用 户 的 兴趣 并 被 用 户 购 买 。 

这 已 超出 了 买 与 中 的 范畴 。 这 种 能 力 对 许多 应 用 来 说 非常 重要 , 例如 医疗 保健 领域 的 应 用 。 
医生 在 看 病 时 ， 硅 能 查看 其 他 病人 的 类 似 医 疗 记录 ( 和 他 们 的 病史 )， 就 可 以 做 出 更 好 的 诊断 。 
现在 ,我 们 专注 于 实现 根据 一 个 输入 文档 的 内 容 检 索 相 关 或 类 似 文档 的 算法 。 首 先 看 看 如 何 让 
搜索 引 苟 提取 相关 内 容 。 接 下 来 了 解 如 何 使 用 不 同方 法 来 构建 文档 舱 和 人 入， 以 克服 第 一 种 方法 的 
局 限 性 ( 见 图 6-4)。 之 后 讨论 如 何 使 用 段 回 量 进行 文档 分 类 ， 这 在 提供 语义 上 相关 的 建议 中 很 


有 用 。 
用 PF 在 
Ce 
查询 解析 器 
人 


、 分 词 备 
解析 并 分 析 查 访 

















































相关 内 容 附 加 到 
每 个 搜索 结 朱 上 








使 用 Lucene | | 


构建 推荐 句 







基于 内 容 过 滤 
的 推荐 喜 


索 ?| 返 回 
搜索 结 













神经 网 络 生 成 
相关 内 容 - 






倒 排 索引 


图 6-4 ”使 用 神经 网 络 检索 相关 内 容 
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6.3.2 ”使 用 高 频 词 项 查找 相似 内 容 


第 5 章 介绍 了 用 于 排序 的 TF-IDF 权重 方案 是 如 何 依赖 于 词 项 和 文档 频率 来 提供 文档 重要 性 
度量 的 。TF-IDF 排序 背后 的 基本 原理 是 ， 对 于 输入 的 查询 ， 文 档 的 重要 性 随 词 项 本 地 频率 和 全 
局 稀有 性 的 增长 而 增长 。 在 这 些 假设 的 基础 上 , 仪 基于 搜索 引 敬 的 检索 功能 ， 就 可 以 定义 一 个 算 
法 来 找 出 与 输入 文档 相似 的 文档 。 

维基 百科 转 储 ( Wikipedia dumps ) 是 一 个 很 好 的 集合 ， 可 以 用 来 评价 用 于 检索 相关 内 容 的 
算法 的 有 效 性 。 每 个 维基 百科 页 面 都 包含 内 容 和 有 用 的 元 数据 ( 标题、 类别、 引用 ， 甚至“ 参 
见 ” 一 节 中 指 回 相关 内 容 的 链接 ), 你 可 以 借助 几 个 可 用 的 工具 将 维基 百科 转 储 索引 到 Lucene， 
例如 lucene-benchmark 模块 。 假 设 你 已 经 将 每 个 维基 百科 页 面 及 其 标题 和 文本 编 和 人 两 个 独 
立 的 Lucene 索引 。 根 据 查 询 返回 的 搜索 结 末 ， 你 想 获 取 5 个 最 相似 的 文档 作为 相关 内 容 呈 现 
给 用 户 。 要 做 到 这 一 点 ， 就 要 选择 每 一 个 搜索 结果 ,再 从 它 的 内 容 中 (本 例 中 是 从 text 字段 ) 
提取 出 最 重要 的 词 项 ， 并 使 用 提取 出 的 词 项 执行 为 一 个 查询 ( 见 图 6-5 )。 前 5 个 结 末 文档 可 以 
用 作 相 关内 容 。 






















































旅行 提示 
的 
查询 解析 器 a El O 
2 Ledgewood 















record govern left depart 

west onto intersect 1997 

原始 搜索 
相关 搜索 结果 
结果 
O 
4 oO 

< 
Ledgewood Circle 
Mount Baker 
Tunnel Ea 


3 是 可 1 
词 妖 
本 本 OO Circle 
过 让 器 Mount Baker 
ee Tunnel 
过 滤 颖 
wish move cite turn ... 





图 6-5 ”用 文档 中 最 重要 的 词 项 ( 使 用 TF-IDF 权重 方案 ) 检索 相关 内 容 
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0 条 关于 美国 新 译 西 州 “ 利 奇 伍德 环岛 ”〈Ledgewood 
Circle ) 的 搜索 结 、 体 可 以 获取 维基 百科 相关 :页 面 中 包含 的 所 有 词 项 ， 并 提取 那些 词 项 频率 至 
少 为 2， ey 少 为 5 的 文档 。 通 过 这 种 方式 ， 你 可 以 获取 以 下 词 项 列表 。 


record govern left depart west onto intersect 1997 wish move cite turn 
township signal 10 lane travel westbound new eastbound us tree 46 
traffic ref 


然后 用 这 些 词 项 进行 查询 ， 得 到 的 文档 作为 相关 内 容 呈 现 给 最 终 用 户 。 
Lucene 允许 你 使 用 名 为 MoreLikeThis (MLT ) 的 组 件 来 执行 此 操作 ， 该 组 件 可 以 从 
Document 中 提取 出 最 重要 的 词 项 ， 并 创建 一 个 Query 对 象 。 该 对 象 将 通过 用 于 运行 原始 查询 
的 IndexSearcher 来 运行 ， 6-1 所 示 。 


代码 清单 6-1 搜索 并 通过 MLT 获取 相关 内 容 


定义 在 搜索 和 从 搜索 结果 
内 容 中 提取 词 项 时 使 用 的 



































分 析 器 
创建 一 个 MLT 
EnglishAnalyzer analyzer = new EnglishAnalyzer(); 实例 
MoreLikeThis moreLikeThis = new MoreLikeThis( 
reader); 
moreLikeThis.setAnalyzer (analyzer); 0 
的 分 析 器 
IndexSearcher searcher = new IndexSearcher\ 
reader); < 二 创建 一 个 IndexSearcher 
String fieldName = "text",; a 2 ee 
OueryParser parser = new QueryParser (fieldName, 定义 在 执行 第 一 查询 和 
0 通过 MLT 生成 的 查询 查找 
zx 八 完 
Ouery dquery = parser.parse("travel hints").; 相关 内 容 时 使 用 哪个 字段 


TopDocs hits = searcher.search (gquery, 执行 查询 并 返 
8 回 前 10 个 搜索 
Ee A Ee 0 pe 是 轴 | 搜索 


ScoreDoc ScoreDoc = hts.SCcCoreDocs [ 


Document doc = A oe 检索 与 当前 搜索 
结果 相关 的 文档 
SEELNG. EItLe 三 :dO oeEE( tIt Le )s 对 象 


System.out .printin(title + " : " 


scoreDoc.score); i 
解析 用 户 输 到 
入 的 查询 E 1 档 的 标题 及 
分 数 


创建 一 个 


QueryParser 


String text = doc.get (fieldName) 
Query simQuery = moreLikeThis. 和 fieldName, 从 当前 文档 中 提取 
text 字段 的 内 容 
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new StringReader (text)).; 








TopDocs related = searcher.search (simOuery, Db); 运行 由 MLT 生成 
for (ScoreDoc rd : related.scoreDocs) { 的 查询 
Document document = reader.document (rd.doc); 
System.out .printlin("-> " + document .get\ 
ns 打印 由 MLT 生 成 的 
: 查询 所 找到 的 文档 


标题 
基于 检索 到 的 文档 内 容 ， 提 取 最 重要 的 的 标题 


词 项 〈TF-IDF 智能 排序 )， 使 用 MLT 生 
成 查询 

提取 相关 内 容 不 涉及 机 融 学 习 。 借 助 搜 索引 擎 的 能 力 , 就 能 从 搜索 结果 中 返回 包含 最 重要 词 
项 的 相关 文档 。 下 面 是 “travel hints” 查 询 的 一 些 示 例 输 出 以 及 “Ledgewood Circle” 的 搜索 结 


Ledgewood Circle : 7.880041 
-> Ledgewood Circle 

-> Mount Baker Tunnel 

-> K-55 (Kansas highway) 

-> Interstate 80 in Illinois 
-> Modal dispersion 


前 3 个 相关 文档 (不 包括 “Ledgewood Circle” 文 档 ) 与 原始 文档 相似 。 它 们 的 内 容 都 与 环 吗 
(如 隧道 、 高 速 公 路 或 州 际 公 路 ) 有 关 。 不 过 ， 第 4 份 文档 完全 无 关 ， 它 的 内 容 涉 及 光纤 。 现 在 ， 
请 更 深入 地 人 研究 一 下 为 什么 会 有 这 样 的 结果 。 为 此 ， 可 以 打开 Lucene 的 Explanation (说 明 )。 


Query simOuery = moreLikeThis.like(fieldName, new StringReader (text)); 
TopDocs related = searcher.search(simOuery, 5);} 





far (GooreDod Fd » elated.SoureDoees) 4 获取 MLT 查询 
Document document = reader.document (rd.doc).; 的 说 明 
Explanation e = searcher.explain(simQOuery, rd.doc);} 
System.out .printlin(document .get ("titije") + " : "+ e); 


} 


借助 Explanation， 你 可 以 检查 词 项 signal1、10、travel 和 new 是 如 何 匹配 的 。 
Modal dispersion : 
20.007288 = sum of: 
7.978141 = weight (text:signal in 1972) [BM25Similarity], result of: 
2.600343 = weight (text:10 in 1972) [BM25Similarity], result of: 


7.5186286 = weight (text:travel in 1972) [BM25Similarity], result of: 


1.9101752 = weight (text:new in 1972) [BM25Similarity], result of: 





这 种 方法 的 问题 在 于 ，MoreLinkeThis 根据 TF-IDF 权重 提取 了 最 重要 的 词 项 。 如 第 $ 章 
所 示 ， 这 时 词 项 出 现 的 频率 会 产生 影响 。 请 看 从 “Ledgewood Circle” 文 档 文 本 中 提取 出 的 重要 
词 项 。 启 项 “record” “govern “]eft” “depart 39 66 














《 


‘west “onto” “intersect “1997” “wish” “move” 
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等 似乎 并 不 能 体现 文档 与 环岛 有 关 。 如 东 把 它们 作为 一 个 句子 来 谈 ， 它 并 没有 任何 意义 。 


Explanation 使 用 默认 的 Lucene BM25Ssimilaritvy。 第 $ 章 提 到 ， 可 以 使 用 不 同 的 排序 加 


数 来 测试 是 否 可 以 得 到 更 好 的 结果 。 如 果 采 用 classicsimility (基于 TF-IDF 的 癌 量 空间 模 
型 )， 则 可 以 得 到 以 下 信息 。 





Query simOuery = moreLikeThis.like(fieldName, new StringReader (text)); 
searcher.setSimilarity (new ClassicSimilarity()); 























TODDOGS TElatEed = Searceher .Searen(sSim uery, 53 使 用 classicsimility 
for (ScoreDoc rd : related.scoreDocs) { 而 不 是 默认 的 simility 
Document document = reader.document (rd.doc).; ( 仅 限于 相似 内 容 搜索 ) 

System.out .println(searcher.getSimilarity() + 

" -> "+ document .get ("title")); 

} 
结 采 如 下 。 
ClassicSimilarity -> Ledgewood Circle 
ClassicSimilarity -> Mount Baker Tunnel 
ClassicSimilarity -> Cherry Tree 
ClassicSimilarity -> K-5 (Kansas highway) 
ClassicSimilarity -> Category:Speech processing 


这 甚至 更 糟糕 : “Cherry Tree” 和 “Speech processing” 都 与 原始 “Ledgewood Circle” 文 档 无 
尝试 用 一 个 基于 语言 模型 的 相似 度 ，LMDirichletsimilarity"。 





Query simOuery = moreLikeThis.like(fieldName, new StringReader (text)); 
searcher.setSimilarity ( 
new LMDirichletSimilarity()); 
TopDocs related = searcher.search(simOuery, 5); 
for (ScoreDoc rd : related.scoreDocs) { 


Document document = reader.document (rd.doc); 
System.out .println(searcher.getSimilarity() + 
" -> "+ document .get ("title")); 
} 
结 采 如下。 


ilirichlet (2000.000000) -> Ledgewood Circle 
2000.000000) -> Mount Baker Tunnel 
2000.000000) -> K-5 (Kansas highway) 
) 
) 


ijrichlet 
jchlet 


jrichlet 


+ 


irichlet 
很 有 趣 的 是 ， 这 些 结 有 末 看 起 来 都 很 好 ， 它 们 都 与 交通 基础 设施 有 关 ， 如 高 速 公 路 或 隧道 。 


使 用 分 类 度量 相关 内 容 的 质量 
第 5 章 强 调 了 不 要 只 做 单一 实验 的 重要 性 。 尽管 单一 实验 有 助 于 细致 地 理解 检索 模型 在 某 些 


2000.000000) -> Interstate 80 in Illinois 
2000.000000) -> Creek Turnpike 
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GD 参见 Chengxiang Zhai 和 John Lafferty 的 文章 “A Study of Smoothing Methods for Language Models Applied to Ad 


Hoc Information Retrieval” 。 
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情况 下 的 工作 方式 ,但 无 法 全 面 度量 模型 在 更 多 数据 上 的 工作 效果 。 因 为 维基 百科 页 面 带 有 类 别 ， 
所 以 你 可 以 利用 它们 对 相关 内 容 的 准确 率 进 行 第 一 次 评价 。 如 果 相 关内 容 算 法 ( 在 这 里 是 Lucene 
的 MoreLikeThis ) 找到 的 文档 被 归 入 任 一 原始 文档 类 别 中 ,就 可 以 认为 它们 是 相关 的 。 在 现实 
生活 中 ， 人 们 可 能 希望 以 略微 不 同 的 方式 进行 此 评价 。 例 如 ， 如 果 一 个 推荐 文档 的 类 别 是 原始 文 
档 类 别 的 子 类 别 , 那么 也 可 以 认为 它 是 相关 的 。 可 以 通过 构建 分 类 法 、 从 维基 百科 中 提取 分 类 法 
或 者 使 用 DBpedia 项 目 (一 个 众 包 项 目 , 目的 是 建立 结构 化 的 维基 百科 内 容 信 息 ) 来 实现 这 一 点 
(以 及 更 多 目的 ), 但 是 , 针对 本 草 的 实验 ， 可 以 定义 一 个 准确 率 度 量 ， 即 一 段 相 关内 容 与 原始 文 
档 共 至 一 个 或 多 个 类 别 的 总 次 数 除 以 说 检索 到 的 相关 文档 数量 。 

请 看 足球 运动 员 Radadmel Falcao 的 维基 百科 页 面 ， 该 页 面 有 很 多 类 别 ( 1986 年 出 生 、 摩 纳 
哥 体 育 协 会 足球 俱乐部 队员 ， 等 等 )。 用 BM25Similarity 对 MLT 生 成 的 ouery 进行 排序 ， 得 
出 以 下 前 $ 个 相关 文档 ， 括 号 中 是 共享 的 类 别 〈 如 果 有 的 话 )。 

Bacary Sagna (*Expatriate footballers in Englandx) 

Steffen Hagen (*1986 births*) 

Andrés Scotti (*Living people*) 


Iyseden Christie (*Association football forwards*) 
Pelé () 


前 4 个 结果 与 Radamel Falcao 的 维基 百科 有 一 个 共同 的 类 别 , 但 是 “Pel6” 没 有。 因此 ， 准 
确 率 是 4 (与 Radamel Falcao 页 面 共 享 一 个 类 别 的 结果 数量 ) 除 以 5 (返回 的 相似 结果 数量 )， 
上 0.8。 

要 评价 此 算法 , 可 以 生成 许多 随机 查询 ,并 在 返回 的 相关 内 容 上 ( 按 预定 义 的 平均 准确 率 计 
算 方 法 ) 度量 平均 准确 率 。( 为 了 确保 至 少 返 回 一 个 搜索 返回 ) 使 用 索引 中 存在 的 单词 生成 100 
个 查询 ， 然 后 使 用 段 向 量 和 余弦 相似 度 检索 出 10 个 最 相似 的 文档 。 针 对 这 些 相关 文档 中 的 每 一 
个 ， 要 检查 它 的 每 一 个 类 别 是 否 出 现在 搜索 结果 中 ， 如 代码 清单 6-2 所 示 。 


代码 清单 6-2 获取 相关 文档 并 计算 准确 率 






























































获取 查询 返回 的 原 用 MLT 创建 相关 内 
始 维基 页 面 中 的 类 容 的 查询 
别 信息 用 多 个 Similarity 实现 运行 同样 


\ ] M7 平价 VW、 是 六 
int topN = 10; 的 查询 ， 以 评价 什么 最 有 效 








String[] originalCategories = doc 
-人 .getValues ("category"); 
Query simQOuery = moreLikeThis.like(fieldName, 在 IndexSearcher 中 使 用 
new StringReader(s)); 指定 的 similarity 
for (Similarity similarity : similarities) { 
searcher.setSimilarity (similarity);} ee 
. 执行 相关 内 容 的 
TopDocs related = searcher.search (simQuery, 、 
查询 
topNy; 
double acc = 0;，; . i 
初始 化 准确 
for (ScoreDoc rd : related.scoreDocs) { 率 为 0 


if (rd.doc == scoreDoc.doc) f{ 
topN--—;} | 
son 如 果 结 果 是 原始 文档 ， 则 跳 过 
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} 





Document document = reader.document (rd.doc); < 一 一 一 检索 相关 文档 
String[] categories = document .getValues ("category"); 
1f (categories != null && originalCategories != null) { 
if (find(categories, originalCategories)) { < 
acc += 1d; 如 果 相 关内 容 的 任何 类 别 信息 
} 在 原始 文档 中 也 有 ， 则 增加 准 
} 准确 率 除 以 返回 相 确 率 
} 关 文 档 的 总 数 
acC /= topN; 
System.out .println(similarity + " aCcCcuracy : " + acc);} 


} 


使 用 BM25Similarity、ClassicMilarity 和 LMDirichletSimilarity 的 相应 输出 如 


下 所 未 。 


BM25 (kl1l=1.2,b=0.75) accuracy : 0.2 
ClassicSimilarity accuracy : 0.2 
LM Dirichlet (2000.000000) accuracy : 0.1 


在 100 多 个 随机 生成 的 查询 中 运行 ， 前 10 个 结 末 的 平均 准确 率 如 下 所 示 。 


BM25 (K1=1.2，,b=0.75) average accuracy : 0.09 
ClassicSimilarity average accuracy : 0.07 
LM Dirichlet (2000.000000) average accuracy : 0.07 


考虑 到 最 佳 的 准确 率 是 1.0， 上 面 这 些 准 确 率 值 者 很 低 。 最 好 的 一 个 准确 紊 上 只 有 0.09。 

尽管 这 是 一 个 次 优 的 结果 ,但 是 它 对 分 析 结 果 本 号 以 及 每 个 文档 中 类 别 信息 的 可 用 性 有 帮 
助 。 首 先 ,你 是 否 选 择 了 一 个 好 的 指标 来 度量 用 这 种 方法 检索 到 的 相关 内 容 的 “相关 性 ”? 维基 
百科 页 面 附加 的 类 别 通 稼 质量 很 好 , 而 “Ledgewood Circle ”页面 的 类 别 是 “Transportation in Morris 
County” 和 “Traffic circles in New Jersey 。 像 “Traffic circles” 这 样 的 类 别 也 较 合 适 ， 但 是 过 于 
普通 。 因 此 ,在 选择 这 些 文 草 附加 的 相关 类 别 时 ,详细 程度 应 有 所 不 同 ， 而 这 会 影响 你 计算 的 准 
确 率 估计 值 。 需要 分 析 的 为 一 点 是 ， 类别 是 否 是 从 文本 中 提取 的 关键 字 。 虽 人 然 在 维基 百科 中 ， 类 
别 不 是 从 文本 中 提取 的 关键 字 , 但 情况 并 非 总 是 如 此 。 你 可 以 考虑 扩展 度量 准确 率 的 方法 ,不 仅 
包括 文档 所 属 的 类 别 ， 而 且 还 包括 文档 中 提 到 的 重要 单词 或 概念 。 例 如 ,，“Ledgewood Circle” 页 
面 中 有 一 部 分 提 到 20 世纪 90 年 代 的 一 个 争议 , 它 与 种 植 在 环 咏 中 间 的 一 棵 树 有 关 。 这 种 信息 没 
有 以 任何 方式 出 现在 类 别 中 。 如 果 你 希望 能 够 提取 页 面 上 讨论 的 概念 ,可 以 将 其 作为 附加 类 别 添 
加 (本 例 中 可 能 是 通用 的 “争议 ”类 别 )， 也 可 以 将 其 看 作用 一 组 通用 标签 标记 每 个 文档 。 这 些 
标签 可 以 是 类 别 、 文 本 中 提 到 的 概念 、 重 要 的 单词 等 。 其 底线 是 ， 准 确 率 度 量 和 附加 到 文档 上 的 
标签 或 类 别 一 样 好 。 男 外 ， 构 建 和 使 用 类 别 的 方式 对 评价 有 重大 影响 。 

其 次 , 你 使 用 度量 标准 的 方式 是 否 恰 当 ? 提取 输入 文档 和 相关 内 容 的 类 别 , 查看 是 否 有 类 别 
同时 属于 这 两 者 。“Ledgewood Circle” 页 面 没 有 “Traffic Circle” 类 别 ， 但 可 以 将 其 类 别 “Traffic 
circles in New Jersey” 视 为 更 通用 的 “Traffic circle” 类 别 的 一 个 子 类 别 。 把 这 个 推理 扩展 到 维基 
百科 的 所 有 类 别 中 ,你 可 以 想象 构建 一 棵 树 ， 如 图 6-6 所 示 。 其 中 ， 节 点 代表 类 别 ， 市 点 越 深 ， 
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它 代 表 的 类 别 就 越 具 体 ， 交 上 度 越 细 。 


NU 
~ 
Ra 医疗 保健 













美国 各 州 交 通 
新 译 西 州 的 交通 
新 泽 西 州 的 道路 


新 泽 西 州 的 环岛 









图 6-6 ”根据 维基 百科 类 别 构建 分 类 法 


在 这 个 实验 中 ,你 可 以 将 匹配 类 别 的 规则 从 “输入 和 相关 内 容 之 间 至 少 共 且 一 个 类 别 ” 改 为 
“输入 和 相关 内 容 之 间 至 少 共 享 一 个 类 别 ， 或 某 个 文档 的 一 个 类 别 是 另 一 个 文档 某 个 类 别 的 子 类 
别 ” 如 果 知 道 更 多 有 关 类 别 ( 通常 也 包括 标签 ) 之 间 关 系 的 信息 , 你 也 可 以 使 用 该 信息 。 DBpedia 
可以 用 作 页 面 之 间 的 关系 的 信息 源 , 假设 算法 返回 “New Jersey”( 新 泽 西 州 ) 作 为 与 “Ledgewood 
Circle” 相关 的 内 容 ， 而 它们 的 主要 共同 点 是 Ledgewood Circle 位 于 新 泽 西 州 ， 具 体 地 点 是 罗 克 
斯 伯 里 镇 ( Roxbury Township )。 如 果 能 得 到 这 样 的 信息 ,那么 该 信息 会 是 一 个 很 好 的 链接 ,能 指 
引 你 找到 度量 相关 内 容 的 相关 性 的 方法 。 例如 , 你 可 以 将 任何 与 输入 文档 有 关联 的 文档 标记 为 相 
关 ， 也 可 以 仅 在 文档 通过 现 有 关系 的 任意 子 集 相 关联 时 ， 才 将 其 标记 为 相关 。 

DBpedia 项 目 记 录 了 维基 百科 页 面 之 间 许 多 这 样 的 关系 。 你 可 以 把 它 看 作 一 幅 图 ， 其 中 市 点 
代表 页 面 , 弧 线 代表 相互 之 间 的 关系 ( 并 附 有 和 名字 ), 图 6-7 使 用 Relfinder 展示 了 Ledgewood Circle 
和 New Jersey 之 间 的 关系 。 
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Randolph, New Jersey 
Wharton, New Jersey 


和 New Jersey 
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isPartOf 
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Ledgewood Circle 六 | Roxbury Township, Ne.. Na | New Jersey | 
ES 
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ERA 
Mine Hill Town 


Eastern Ns Time 


Morris ~ New Je... 
Mount Arlington, New... 


图 6-7 DBpedia 中 “Ledgewood Circle” 和 “New Jersey” 页 面 之 间 的 关系 导航 


在 度量 来 日 MoreLinkeThis 和 其 他 相关 内 容 算 法 的 结果 的 准确 率 时 , 使 用 有 层次 的 分 类 体 
系 很 重要 。 另 外 ,关于 类 别 及 其 关系 的 信息 在 实践 中 稼 稍 是 不 可 用 的 。 这 种 情况 下 ， 基 于 无 监督 
学 习 的 方法 有 助 于 确定 两 个 文档 是 否 相似 。 请 考虑 学 习 文 本 的 癌 量 表示 的 算法 , 如 word2vec (用 
于 单词 ) 或 段 回 量 ( 用 于 单词 序列 )。 在 图 形 上 绘制 它们 时 ， 相 似 的 单词 或 者 文档 会 落 在 彼此 附 
这。 这 种 情况 下 ， 可 以 将 最 近 的 回 量 聚 在 一 起 ， 组 成 复 〈 cluster; 有 多 种 方法 可 以 做 到 这 一 点 ， 
这 里 不 予 讨论 )， 并 将 相关 单词 或 文档 昭和 人 同一 个 和 族 。6.3.3 万 将 人 研究 文档 通信 的 一 个 更 直接 的 用 
法 : 查找 相似 的 内 容 。 


6.3.3 ”使 用 段 向 量 检索 相似 内 容 


针对 输入 神经 网 络 结构 的 每 一 个 单词 序列 , 段 回 量 都 会 学 习 一 个 固定 的 (分 布 式 ) 癌 量 表示 。 
你 可 以 将 整个 文档 或 部 分 文档 ( 如 文章 的 一 部 分 、 段 落 或 句子 ) 输入 网 络 。 粒 度 由 你 来 定义 。 例 
如 ， 如 果 将 整个 文档 输入 网 络 , 你 可 以 要 求 网 络 返 回 检索 到 的 最 相似 的 文档 。 每 个 文档 ( 和 所 生 
成 的 回 量 ) 都 由 一 个 标签 标识 。 

下 面 回 到 在 维基 百科 页 面 上 为 搜索 引擎 查找 相关 内 容 的 问题 。 在 6.3.2 市 中 ， 你 使 用 Lucene 
的 MoreLikeThis 工具 提取 最 重要 的 词 项 ， 然 后 将 它们 作为 查询 以 获取 相关 内 容 。 遗 憾 的 是 ， 
这 样 做 准确 率 较 低 ， 主 要 原因 如 下 : 
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口 MoreLikeThis 提取 的 最 重要 的 词 项 虽然 不 错 ， 但 是 可 以 更 好 ; 
口 如 果 查 看 来 日 某 文档 的 重要 词 项 ， 你 可 能 不 能 区 分 它们 来 自 哪 类 文档 。 
下 面 回 到 “Ledgewood Circle” 页 面 。 根据 MLT 算法 ， 最 重要 的 词 项 如 下 。 











record govern left depart west onto intersect 1997 wish move cite turn 
township signal 10 lane travel westbound new eastbound us tree 46 
traffic ref 





很 难说 上 面 这 些 词 项 来 自 “Ledgewood Circle” 页 面 ， 因 此 不 能 指望 据 此 得 到 很 准确 的 相关 
内 容 建议 。 文 档 租 入 不 提供 可 供 查看 的 显 式 信息 ( 这 是 深 度 学 习 中 的 第 见 问题 , 黑箱 中 发 生 的 事 
往往 难以 理解 )。 一 个 段 向 量 的 神经 网 络 在 训练 期 间 调整 每 个 文档 的 向 量 值 ， 如 第 5 章 所 述 。 

请 使 用 余弦 相似 度 ， 通 过 找到 与 表示 输入 文档 的 回 量 最 近 的 向 量 ， 来 提取 相关 内 容 。 为 此 ， 
首先 运行 用 户 输 入 的 查询 ， 例 如 “Ledgewood circle”， 运 行 后 返回 搜索 结果 。 人 针对 每 一 个 这 样 的 
结果 , 提取 它 的 癌 量 表示 并 查看 艇 入 空间 中 离 它 最 近 的 词 。 这 就 像 在 一 个 根据 语义 相似 度 绘制 所 
有 文档 的 图 或 地 图 上 导航 。 当 走 到 代表 “Ledgewood Circle” 的 点 时 ， 找 到 最 近 的 点 ， 看 看 它们 
代表 了 哪些 文档 。 你 会 注意 到 ,“Ledgewood circle” 癌 量 的 近邻 代表 人 处理 交通 和 运输 主题 的 文档 ， 
如 采 选 择 ( 例如 ) 一 些 关 于 首 乐 的 文档 的 回 量 ， 你 会 发 现 它 们 在 舱 入 空间 中 远离 “Ledgewood 
Circle” 及 其 近邻 ( 见 图 6-8™ )。 
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图 6-8 “Ledgewood Circle” 的 段 癌 量 及 其 近邻 ， 与 音乐 相关 的 段 回 量 进行 比较 





J Mo... 应 是 作者 图 中 未 显示 完整 ， 本 图 及 其 他 图 中 也 有 类 似 情 况 ， 有 时 因 缺 失 太 多 而 未 译 ， 请 读者 注意 。 
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与 排序 时 类 侯 ， 首 匈 为 段 回 量 网 络 输入 索引 数据 。 


File dump = new File("/path/to/wikipedia-dump.xml").; 
WikipedialImport wikipedialImport = new WikipedialImport (dump, 
languageCode, true); 
wikipediaImport.importWikipedia (writer, ft); 
IndexReader reader = DirectoryReader.open (writer); 
FieldValuesLabelAwarelterator iterator = new 
FieldValuesLabelAwareIlterator (reader, fieldName); 
ParagraphVectors paragraphVectors = new ParagraphVectors.Builder() 
.literate(iterator) 
.build(); 
paragraphVectors.fit(); 


完成 后 ,可 以 使 用 DL4J 内 置 的 nearestLabels 方法 查找 最 接近 “Ledgewood Circle” 问 量 
的 文档 回 量 。 在 内 部 ， 此 方法 使 用 余 缀 相似 度 度 量 两 个 向 量 之 间 的 距离 。 


TODDGOGE Tle. = Searcehner searehl(onery. 10): < 一 运行 原始 查询 
for (int i = 0; i < hits.scoreDocs.length; i++) { 











ScoreDoc ScoreDoc = hits.scoreDocs[i]; 

Document doc = searcher.doc (scoreDoc.doc); 

String label = "doc " + ScCoreDoc.doc; < 一 为 每 个 结果 创建 一 个 标签 

INDArray labelVector = paragraphVectors 
.getLookupTable() .vector (label); 








Collection<String> doclIds = paragraphVectors 获取 搜索 结果 的 
.nearestLabels (labelVector, topN); 文档 散 入 

for (String docld : docIds) f{ 
int docId = Integer.parselint (docIid.substring(4));} 、 i 
Document document = reader.document (docI1gd); 查找 与 搜索 结果 
System.out .printlin(document .get ("title")).;} 同 量 最 近 的 同 量 

} 的 标签 

} 对 于 每 个 最 邻近 的 向 量 ， 解 析 其 标签 


并 获取 相应 的 Lucene 文档 
结果 如 下 。 


Texas State Highway 186 

Texas State Highway Loop 150 

Farm to Market Road 1000 

Jersey Shore, Pine Creek and Buffalo Railway 
Farm to Market Road 999 


从 这 个 人 简单 的 例子 来 看 ， 结 采 似 乎 比 MLT 提供 的 结果 好 。 它 们 都 没有 跑 古 .都 与 交通 有 关 
(然而 MLT 返 回 了 “Modal dispersion” 页 面 ， 它 是 一 个 光学 术语 )。 

为 了 确认 这 种 良好 感觉 ， 可 以 像 度 量 MoreLikeThis 的 有 效 性 时 那样 ， 通 过 计算 平均 准确 
率 来 度量 这 种 方法 的 有 效 性 。 为 了 进行 公平 比较 , 你 需要 使 用 同样 的 检查 方法 ， 即 检查 搜索 结 
包含 的 任何 类 别 ( 如 “Ledgewood Circle”) 是 否 也 出 现在 相关 内 容 的 类 别 中 。 在 使 用 与 评价 MLT 
时 间 样 的 随机 生成 的 查询 时 ， 上 段 向 量 的 平均 准确 率 如 下 。 


paragraph vectors average accuracy : 0.37 


MIT 的 最 佳 平均 准确 率 为 0.09， 而 这 里 的 0.37 更 优 。 
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可 以 找到 语义 相近 的 相似 文档 是 使 用 文档 藤 入 的 关键 优势 之 一 , 也 是 它们 在 目 然 语言 处 理 和 
搜索 中 如 此 有 用 的 原因 。 如 你 所 见 , 它们 有 多 种 应 用 场景 , 包括 排序 和 检索 相似 的 内 容 。 不 过 段 
回 量 不 是 学 习 文 梢 能 入 的 唯一 方法 。 第 5 草 介 绍 过 平均 词 艇 人 , 但 是 研究 人 员 一 下 在 人 研究 更 先进 
的 提取 单词 和 文档 通 入 的 方法 。 


6.3.4 ”从 编码 器 -解码 器 模型 用 向 量 检索 相似 内 容 


第 3 划 和 第 4 草 介 绍 了 一 种 被 称 为 编码 器 -解码 器 | encoder-decoder， 也 称 序 列 到 序列 
( seq2seq ) ] 模型 的 深度 神经 网 络 结构 。 前 文 提 到 ， 这 个 模型 由 一 个 编码 各 LSTM 网 络 和 一 个 解 
码 人 各 LSTM 网 络 组 成 。 编码 带 将 输入 的 单词 序列 转换 为 固定 长 度 的 稠密 癌 量 作为 输出 , 此 输出 又 
作为 解码 右 的 输入 。 解码 右 将 该 输入 转换 回 一 个 单词 序列 并 作为 最 终 输 出 ( 见 图 6-9 )。 你 曾 使 用 
这 样 的 架构 来 产生 可 选 查询 表示 ， 帮 助 用 户 输入 查询 。 这 里 ,你 反而 对 使 用 编码 融 网 络 的 输出 感 
兴趣 ， 该 输出 即 所 请 的 思维 向 量 ( thought vector )。 


O 












































O 
oO oO 
LSTM | 一 ”| LSTM | 一 一 | LSTM -| | LSTM | 一 上 | LSTM | 一 盖 | LSTM 
research in Al artificial «intelligence hype 
思维 问 量 


图 6-9 ”编码 天 -解码 硕 模 型 


之 所 以 称 之 为 思维 回 量 ， 是 因为 它 是 输入 文本 序列 的 压缩 表示 。 在 正确 解 但 时 ， 它 会 生成 所 
需 的 输出 序列 。 第 7 章 将 展示 seq2seq 模型 也 能 用 于 机 融 翻 译 ， 它 们 可 以 将 句子 从 输入 语言 转换 
为 翻译 后 的 输出 序列 。 此 时 ,你 的 目的 是 为 输入 序列 ( 文档、 句子 等 ) 提取 这 样 的 思维 回 量 ， 并 
像 使 用 段 回 量 一 样 ， 使 用 它们 度量 文档 之 间 的 相似 度 。 

首先 ， 你 需要 介入 训练 阶段 ， 以 便 “ 保 存 ” 通 入， 因为 它们 是 一 次 一 步 地 生成 的 。 把 它们 放 
在 WeightLookupTable 中 ，WeightLookupTable 是 负责 存储 word2vec 中 词 回 量 和 
ParagraphVectors 中 段 向 量 的 实体 。 使 用 DL4J， 你 可 以 用 TrainingListener 介入 训练 阶 
段 ，TrainingListener 可 以 捕获 当 编 码 问 LSTM 生成 思维 癌 量 时 的 冲 馈 过 程 。 从 原始 语料库 
中 一 次 检索 一 个 单词 ， 提 取 输 入 回 量 并 将 其 转换 回 一 个 序列 。 然 后 ， 提 取 思 维 回 量 ， 并 将 序列 及 
其 思维 回 量 放 入 weightLookupTable， 如 代码 清单 6-3 所 示 。 


代码 清单 6-3 ”在 编码 硕 -解码 天 训练 中 提取 思维 回 量 
public class ThoughtVectorsListener implements TrainingListener f{ 


QOverride 
public void onForwardPass (Model model, 


Map<String, INDArray> activations) { py 
INDArray i1nput 二 acrivations. gt 从 输入 层 获取 网 络 输入 ( 转 
inputLayerName); 换 为 向 量 的 单词 序列 ) 


INDArray thoughtVector = activations.getl 
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thoughtVectorLayerName).; 
for (int i = 0; i < input.size(0); i++) { 从 思维 向 量 层 
for (int j = 0; j < input.size(1); j++) { 获取 思维 向 量 


int size = input.size(2); 





String[] words = new Stringl[lsizel]; 
for (int s = 0; s < size; s++) { 从 输入 向 量 一 次 
words[s] = revDict.get (Input .detDouble(1I，]，S)) :; 一 个 单词 地 重建 

} 序列 

String sequence = Joiner.on(' ') 
.Join (words);} 

lookupTable. ee 、 , thoughtVector 将 单词 合并 为 一 个 序列 
.LensorAlongDimensilion(i1i, J 2 人 一 A 

: 〈 作 为 一 个 字符 串 ) 
} 记录 与 输入 文本 序列 
} 关联 的 思维 向 量 


. 


使 用 这 些 回 量 , 可 以 达到 与 段 回 量 相同 的 准确 率 。 不 同 之 处 在 于 , 你 可 以 决定 如 何 影 响 它 们 。 
这 些 思维 回 量 是 编码 俘 - 解 码 般 LSTM 网 络 的 中 间 产 物 。 你 可 以 决定 在 训练 阶段 ， 编 码 带 输入 和 
解码 天 输出 包括 哪些 内 容 。 如 果 把 属于 同一 个 类 别 的 文档 放 在 网 络 的 边缘 , 生成 的 思维 回 量 将 学 
习 输 出 相同 类 别 的 文档 。 由 此 ， 可 以 得 到 更 高 的 准确 率 。 

如 果 采 用 第 3 章 和 第 4 章 中 定义 的 编码 器 -解码 器 LSTM ,并 用 属于 同一 类 别 的 文档 对 其 进行 
训练 ， 得 到 的 平均 准确 率 为 0.77。 这 个 值 甚至 比 使 用 段 问 量 得 到 的 还 高 ! 














6 .4 总 结 


口 段 向 量 模 型 为 句子 和 文档 提供 分 布 式 表 示 ， 并 且 允 许配 置 粒度 ( 句子 、 段 落 或 文档 。 

口 基于 段 问 量 的 排序 函数 比 传统 的 统计 模型 和 基于 词 通 人 的 排序 函数 更 有 效 ， 因 为 它们 能 
在 句子 或 文档 级 别 捕 获 语 义 。 

口 段 癌 量 也 可 基于 文档 语义 有 效 地 检索 相关 内 容 和 装饰 搜索 结果 。 

口 可 以 从 seq2seq 模型 中 提取 思维 向 量 ， 以 基于 文档 语义 检索 相关 内 容 和 疙 饰 搜索 结 

















延 伸 








在 本 书 的 第 一 部 分 中 , 你 基本 了 解 了 搜索 引擎 和 深度 神经 网 络 及 其 工作 原理 , 以 及 它们 如 何 
共同 创造 更 智能 的 搜索 引擎 。 第 二 部 分 深入 研究 了 深度 神经 网 络 在 搜索 引擎 中 的 主要 应 用 , 主要 
使 用 了 循环 神经 网 络 和 词 〈 文 档 ) 通信 ,为 用 户 提 供 相 关 性 更 好 的 结 末 。 这 一 部 分 将 神经 网 络 的 
应 用 扩展 到 两 个 新 领域 来 处 理 更 高 级 的 主题 和 挑战 : 使 用 机 带 翻 详 搜 索 多 博 言 文本 〈 第 7 羽 ， 
以 及 使 用 卷 积 神经 网 络 搜 索 图 像 (第 8 章 ) 最 后 ,第 9 章 将 介绍 在 生产 环境 中 影响 最 大 的 因素 : 
性 能 。 这 涉及 是 在 训练 和 预测 时 保持 合理 的 速度 ,还 是 保证 结 末 的 准确 率 。 你 将 看 到 一 个 关于 如 
何 调整 神经 网 络 模 型 ， 以 在 合理 的 训练 时 间 内 达到 民 好 准确 率 的 例子 。 为 外 ,你 还 会 了 解 在 使 用 
神经 搜索 时 如 何 处 理 连续 数据 流 。 


























跨 语言 搜索 





本 章 内 容 

口 跨 语 言 信息 检索 

口 统计 机 禹 翻译 

口 用 于 机 再 翻 详 的 seq2seq 模型 

口 用 于 机 带 翻 幸 的 词 般 入 

口 用 于 搜索 的 机 和 硕 翻 译 方法 的 有 效 性 比较 




















本 章 将 着 重 扩展 你 的 能 力 , 为 使 用 不 同 于 被 检索 文档 声言 来 次 .该 、 写 查询 的 用 户 提 供 服务 。 
具体 来 说 , 本 章 将 介绍 如 何 使 用 机 副 翻 译 来 构建 可 以 日 动 翻译 查询 的 搜索 引擎 ,以 便 使 用 这 些 查 
询 从 多 种 语言 中 搜索 并 提供 内 容 。 本 章 将 花 些 时 间 来 妍 究 这 种 翻译 能 力 在 不 同 的 上 下 文中 是 如 何 
发 挥 作用 的 ， 从 普通 的 网 络 搜 索 到 特定 情况 下 (不 因 合 言 障碍 而 遗漏 搜索 结果 很 重要 ) 的 网 络 搜 
索 。 能够 日 动 翻 详 查 询 的 好 处 是 , 搜索 引擎 能 够 接触 到 更 多 的 用 户 ， 而 无 须 为 每 个 文本 文档 存储 


多 个 语言 的 副本 。 
7.1 为 讲 多 种 语言 的 用 户 提 供 服 务 


前 面 几 章 介 绍 的 许多 场景 集中 在 垂直 搜索 引擎 ， 或 者 专注 于 小 了 范围、 确定 领域 的 搜索 引擎 ， 
如 搜索 电影 评论 的 搜索 引擎 。 本 章 将 面 对 的 挑 成 是 为 讲 不 同 语言 的 用 户 检索 有 用 的 信息 。 在 这 方 
面 , 没有 比 网 络 搜索 一 一 即 从 万 维 网 上 搜索 任意 来 源 的 数据 一 一 更 合适 的 了 。 我 们 每 天 都 在 使 用 
谷歌 搜索 、 必 应 搜索 .百度 搜索 这 样 的 搜索 引擎 进行 网 络 搜索 。 尽 管 许 多 在 线 内 容 是 由 大 语种 ( 如 
英语 ) 编写 的 , 但 仍 有 许多 用 户 需要 用 他 们 的 母语 来 检索 信息 ,并 希望 检索 到 的 信息 的 语言 也 是 
他 们 的 母语 。 

你 可 能 想 知 直 以 上 讨论 的 重点 是 什么 。 如 采 有 一 个 意大利 语 的 维基 百科 页 面 ， 它 肯定 会 被 
(例如 ) 谷歌 搜索 宗 引 ， 用 户 可 以 用 意大利 语 在 谷歌 搜索 上 填写 一 个 查询 来 搜索 它 ， 如 网 7-1 
所 不 
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Rete neurale artificiale - Wikipedia 


图 7-1 搜索 “rete neurale"”， 即 意大利 语 的 “neural network” 


在 实际 搜索 时 , 尤其 是 在 搜索 与 撤 术 相 关 的 主题 时 ， 用 瑞 语 编写 查询 通 稼 比较 方便 。 这 是 因 
为 瑞 博 的 可 用 信息 总 量 ， 特 别 是 在 扩 术 主题 上 ， 筑 第 远 超 其 他 博 言 。 第 一 语言 是 意大利 语 〈 或 丹 
麦 请 、 汉 语 等 ) 的 用 户 很 可 能 会 用 英语 编写 一 个 查询 ， 以 便 尽 可 能 多 地 获得 相关 绪 末 。 这 些 绪 采 
将 只 包括 严 文 文档 。 事实 上 对 用 户 来 说 , 用 器 语 编写 的 搜索 结果 不 一 定 总 是 比 用 他 们 母语 编写 的 
搜索 结果 有 用 。 举 一 个 例子 ， 如 图 7-2 所 示 ， 这 是 一 位 母语 为 意大利 语 的 用 户 在 用 英语 查询 时 发 
生 的 情况 ， 用 英语 编写 的 查询 也 返回 了 一 个 意大利 语 的 搜索 结 末 〈 见 图 右 侧 ) 在 这 种 情况 下 ， 
当 已 登录 用 户 执 行 查询 时 ,搜索 引 敬 可 以 查看 用 户 的 母语 ,以 便 在 匹配 原始 查询 的 语言 ( 在 本 例 
中 是 英才 ) 的 结束 之 外 ， 返 回 以 用 户 母 请 编写 的 绪 采 。 
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Tutti mmagin Video Notizie Libri Altro Impostazioni Strumenti Sal 
Articoli accademici per artificial neural network Hidden 
Artificial neural network - Wang - Citato da 150 


InpPut 4 》 
) 
Artificial neural network - Zhang - Citato da 97 


Artificial neural networks - Schalkoff - Citato da 1003 


Artificial neural network - Wikipedia = . 
Artificial neural networks (ANNS) or connectionist systems are computing Systems vaguely inspired by (Cy 人 | . DATtrelmmagin 
the biological neural networks that constitute animal brains. Such systems "lear tasks by considering A | 
examples, generally without task-specific programming. For example, in image recognition, they might 


leam to identify Rete neurale artificiale < 


Neural network (disambiguation) + Biological neural network - Artificial neuron 


Nel campo dell'apprendimento automatico, una rete neurale artificiale é 
un modello matematico composito di "neuroni artificiali, che si ispira a 


Neural networks and deep learning Oe Ti rel AN 


and then develop a system which can learn from those training examples. In other words, the neural 
network uses the examples to automatically infer rules for recognizing handwritten diqits. Furthermore, 


图 7-2 搜索 “artificial neural network”， 结 果 是 意大利 语 和 英语 


这 对 用 户 有 什么 帮助 ? 想象 一 下 ， 你 在 阅读 很 喜欢 的 一 本 书 ， 这 本 书 是 用 你 的 母语 写成 的 ， 
而 不 是 用 在 学 校 学 习 的 外 霹 写 的 。 尽 管 你 能 理解 这 本 书 外 语 版 本 的 内 容 , 但 这 可 能 会 花费 额外 的 
时 间 和 精力 ， 并 且 还 可 能 错过 某 些 细 市 或 特别 困难 的 部 分 。 这 同样 适用 于 网 络 上 的 文档 。 例 如 ， 
“artificial neural network” 的 维基 百科 条 目 有 许多 不 同 的 语言 版 本 , 这 使 得 它 更 容易 被 更 多 的 用 户 
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理解 。 如 有 果 一 个 搜索 引擎 不 仅 显 示 英 文 条 目 〈 与 用 英文 编写 的 查询 匹配 )， 还 高 党 显示 以 用 户 的 
母语 编写 的 条 目 ， 那 么 这 个 搜索 引擎 怠 能 更 好 地 满足 更 多 用 户 的 需求 。 

你 可 以 将 机 器 翻译 (machine translation，MT ) 与 搜索 引擎 相 结合 返回 这 两 类 结果 。 通 过 机 
融 翻 译 , 程序 可 以 将 一 个 句子 从 输入 语言 翻译 成 目标 语言 。 本 和 草 的 其 余部 分 将 展示 在 查询 时 使 用 
机 需 翻 译 工具 执行 文本 翻译 的 方法 。 采 用 这 种 方法 , 路 多 种 语言 的 搜索 引擎 查询 的 召回 率 和 精确 
率 会 有 所 提高 。 


7.1.1 翻译 文档 与 查询 


想象 一 下 ,有 一 家 为 世界 各 地 用 户 提 供 咨询 服务 的 非 营 利 组 织 。 该 组 织 必须 构建 一 个 搜索 引 
擎 ， 其 功能 与 上 节 中 概述 的 类 似 。 这 样 一 个 组 织 的 搜索 引擎 将 帮助 用 户 寻 找 适当 的 文档 , 例如 填 
写 申 请 。 世 界 上 的 每 个 国家 需要 填写 和 签署 的 文档 和 表格 都 可 能 不 同 , 对 申请 人 的 要 求 也 可 能 根 
据 其 国籍 而 有 所 不 同 。 这样 一 个 平台 的 用 户 可 能 只 会 说 他 们 的 母语 , 而 不 会 说 要 进入 的 国家 的 语 
言 。 所 以 如 有 果 来 目 冰 岛 的 用 户 要 去 巴西 ,就 需要 检索 用 和 芽 铭 牙 语 书 写 的 文档 。 如 采用 户 不 懂 葡 衔 
牙 语 ， 他 们 要 怎样 编辑 搜索 查询 才能 找到 需要 的 信息 ? 

无 论 如 何 , 可 以 假设 用 户 在 任何 情况 下 都 希望 尽 可 能 用 母语 检索 。 有 两 种 直接 使 用 机 夷 翻译 
的 方法 : 

口 使 用 机 器 翻译 程序 翻译 查询 ， 以 在 多 种 语言 中 找到 匹配 ; 

口 只 使 用 一 种 语言 创建 内 容 ， 并 使 用 机 楷 翻 译 程序 创建 文档 的 翻译 副本 ， 从 而 使 查询 能 够 

匹配 翻 境 后 的 版 本 。 

这 些 选 项 并 不 是 互 斥 的 ， 你 既 可 以 选 其 一 ， 也 可 以 两 者 几 用 。 怎 么 选 最 合适 取决 于 应 用 场景 。 

考虑 像 亚 马 逊 和 爱 彼 迎 ( Airbnb ) 这 样 的 网 站 的 客户 评论 。 这 样 的 评论 通常 使 用 评论 者 的 母 
语 ， 因 此 ， 为 了 方便 处 理 搜 索 结 果 ， 在 其 他 用 户 看 到 这 些 评论 前 ， 最 好 先 翻译 它们 。 

翻译 搜索 结果 的 另 一 个 好 例子 是 问答 系统 。 问 答 系统 使 用 信息 检索 系统 来 回答 问题 , 用 户 以 
自然 语言 的 形式 详细 描述 他 们 的 意图 ( 比如 “ 谁 在 2012 年 伦敦 奥运 会 上 获得 尹 子 百 米 冠军 ”)， 
系统 会 给 出 对 应 的 答案 ,通常 是 一 段 (很 可 能 会 提供 有 用 信息 的 ) 与 问题 相关 的 文本 (如 “ 尤 塞 
恩 . 博 尔 特 ”)。 

另外 ， 对 于 网 络 搜索 而 言 ， 如 前 一 闻 所 述 ， 翻 译 查 询 以 得 到 不 同 语言 的 搜索 结果 更 好 ， 这 样 
做 可 以 让 最 终 用 户 有 更 多 选择 。 一 旦 选择 该 方法 ,就 需要 做 一 个 关于 排序 的 重要 决 条 : 如 何 对 来 
日 翻译 查询 的 结果 进行 排序 ? 

假设 用 户 用 母语 输入 查询 , 但 返回 的 查询 会 被 翻译 成 男 一 种 语言 。 在 这 种 情况 下 , 将 检索 原 
始 查 询 和 翻译 后 的 查询 的 结果 。 更 具体 点 ， 如 用 户 需 要 咨询 , 那么 翻译 后 的 查询 返回 的 文档 更 重 
要 ， 因 为 用 户 需 要 填写 并 提交 给 地 方 当局 。 

在 网 络 搜索 中 ， 人 情况 并 非 总 是 如 此 。 回 到 维基 百科 “artificial neural network” 页 面 的 例子 ， 
英语 版 页 面 上 的 信息 比 意 大 利 语 版 页 面 多 得 多 。 受 各 种 因 系 〈 如 用 户 的 兴趣 和 和 对 主题 的 偏好 ) 
影响 ， 搜 索引 擎 可 能 会 使 翻译 后 的 页 面 排序 低 于 原始 页 面 ， 因 为 前 者 信息 量 较 少 。 如 果 一 个 深度 


































































































7.1 为 讲 多 种 语言 的 用 户 提供 服务 175 


学 习 的 研究 人 员 在 网 络 上 搜索 “artificial neural network”， 那 么 意大利 话 厂 的 “artificial neural 
network” 页 面 对 他 们 就 没有 用 处 ， 因 为 与 英语 版 页 面相 比 ， 意 大 利 语 版 的 信息 量 更 少 。 相 反 ， 
如 果 用 户 在 这 个 主题 上 是 新 手 , 阅读 一 个 由 其 母语 编写 的 页 面 可 能 会 帮助 他 们 理解 这 个 主题 。 虽 
然 这 在 很 大 程度 上 取决 于 应 用 场景 , 但 是 如 果 你 决定 在 搜索 引 苟 中 使 用 机 器 翻译 ,那么 使 额外 结 
果 的 排序 等 于 或 高 于 “正常 ”结果 会 是 个 好 主意 。 

本 章 的 其 余部 分 将 把 重点 放 在 翻译 查询 而 不 是 翻译 文档 上 。 无论 是 翻译 短文 本 还 是 翻译 长 文 
本 ,原理 都 是 相似 的 。 而 且 ， 从 技术 角度 看 ， 处 理 非常 短 的 文本 (例如 搜索 查询 ) 或 非常 长 的 文 
本 ( 如 长 文章 ) 通常 比 处 理 句 子 困 难 。 
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首先 ， 人 简要 介绍 一 下 如 何 将 机 莫 翻译 融入 搜索 引 苟 中， 用 于 翻译 用 户 查 询 。 在 网 络 搜 索 中 ， 
机 和 需 翻 译 任务 通 稼 是 在 搜索 引擎 中 执行 的 ,用户 对 它 一 无 所 知 。 在 其 他 应 用 场景 下 ,用 户 可 能 而 
望 指定 搜索 结果 的 语言 。 比 如 , 需要 咨询 的 用 户 知 道 他 们 需要 的 文档 用 什么 语言 最 好 , 但 搜索 系 
统 可 能 不 知道 。 

接 下 来 ,假设 你 有 一 组 机 融 翻 译 工 具 ,， 可 以 将 用 户 查询 的 语言 翻译 为 其 他 场 言 ， 并 且 你 的 搜 
索引 擎 包含 许多 不 同 博 言 的 文档 一 一 这 是 用 于 网 络 搜索 的 路 语言 信息 检索 的 稼 用 设置 。 执行 机 需 
翻译 的 工具 可 以 用 很 多 不 同 的 方法 实现 。 继 续 浏 览 本 章 ， 就 会 看 到 一 些 机 亏 翻 译 的 不 同方 法 。 这 
些 工具 通 稼 能 将 文本 从 源 (source ) 语言 翻译 为 目标 (target ) 语言 。 假设 有 一 条 用 冰岛 语 写 的 查 
询 ， 如 前 文 所 述 ,， 你 有 三 个 模型 ,分 别 可 以 将 冰岛 语 翻 译 成 秽语 ， 身 语 翻 译 成 冰岛 语 ， 意 大 利 语 
翻译 成 英语 。 搜 索引 擎 需要 选择 正确 的 工具 来 翻译 查询 。 如 果 选 择 了 意大利 语 到 英语 的 工具 ， 翻 
译 可 能 没有 结果 , 甚至 会 得 到 一 个 错误 的 翻译 , 进而 导致 检索 到 不 想 要 的 结果 。 这 当然 非常 糟糕 。 
即使 用 错 的 模型 没有 给 出 翻译 ， 该 过 程 也 会 占用 CPU 和 内 存 资 源 ， 因 此 ， 这 种 尝试 不 仅 无 法 返 
回 有 用 的 结果 ， 还 可 能 会 对 性 能 产生 负面 影响 。 

为 了 解决 这 些 问题 ， 最 好 将 语言 检测 器 ( language detector ) 程序 放 在 机 需 翻 译 模型 之 前 。 话 
言 检 测 需 接收 输入 文本 并 输出 输入 序列 的 语言 种 类 。 它 可 以 被 看 作文 本 分 类 需 ,， 只 是 它 的 输出 类 
别 是 语言 代码 (en、it、ic、pt 等 )。 在 语言 检测 需 检 测 出 用 户 的 查询 语言 之 后 ， 就 能 选择 正 
确 的 机 天 翻译 模型 来 翻译 查询 。 所 有 机 夷 翻译 模型 的 输出 文本 将 作为 附加 查询 ， 和 原始 查询 一 起 
发 送 到 搜索 引擎 。 你 可 以 将 该 过 程 看 作 在 查询 的 原始 版 本 和 翻译 版 本 之 间 使 用 布尔 运算 符 OR。 
图 7-3 显示 了 查询 时 使 用 机 融 翻 译 的 示例 流程 。 
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用 户 输入 
中 
解析 器 代理 
查询 解析 器 查询 翻译 
co 


oo 


用 户 输入 查询 检测 语言 
co 


语言 检 污 a BR 
语言 检测 查询 从 英语 翻译 


解码 器 en 一 it (英语 到 意大利 语 ) | 为 意大利 语 和 德语 







解码 器 en 一 de (英语 到 德语 ) 


解析 后 的 用 户 查询 


翻译 后 的 查 





执行 原始 查询 和 
翻译 后 的 查询 





图 7-3 查询 翻译 流 


请 看 如 何在 Apache Lucene 上 实现 路 语言 搜索 。 到 目前 为 止 ， 机 需 翻 译 这 一 概念 有 些 抽象 ， 
7.1.3 方 将 展示 不 同类 型 的 机 融 翻 译 模 型 ， 分 析 每 一 个 的 优 缺 点 ， 其 中 将 尤其 关注 为 什么 大 多 数 
人 研究 和 产业 已 经 放弃 了 统计 机 器 翻译 ( statistical machine translation， 基 于 单词 和 短语 松 率 分 布 的 
统计 分 析 )， 转 而 使 用 神经 网 络 的 神经 机 器 翻译 ( neural machine translation )。 

















7.1.3 在 Lucene 上 进行 多 语言 查询 


继续 以 咨询 为 例 。 假设 一 位 在 美国 的 意大利 人 需要 填写 一 些 咨询 文档 。 他 用 意大利 语 输 入 一 
个 查询 ， 碍 找 进 入 美国 所 需 的 文档 。 以 下 是 搜索 引擎 会 做 的 。 


9: documenti per entrare negli Stati Uniti < 输入 查询 

detected language 'ita' for gquery < 一 语言 检测 输出 

found 1 translation 

t: documents to enter in the US ”< 一 翻译 后 的 查询 

'documenti per entrare negli ...' parsed as : 

' (text:documenti text:per text:entrare text:negli text:Stati text:Uniti).' 
OR 

' (text:documents text:to text:enter text:in text:the text:US) 


增强 的 查询 , 包含 由 布 
尔 或 子 名 分隔 的 原始 
查询 和 翻译 后 的 查询 





V V V MXYV 
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正如 你 猜 到 的 ， 关 键 在 于 解析 用 户 输 入 查询 。 以 下 是 查询 解析 融 执 行 的 操作 的 简要 顺序 。 

(1) 查询 解析 需 谈 取 输 入 查询 。 

(2) 查询 解析 需 将 输入 查询 传递 给 语言 检测 需 。 

(3) 语言 检测 硕 确 定 输入 查询 的 语言 。 

(4) 查询 解析 帝 选 择 能 翻 详 所 识别 语言 的 机 希 翻 详 模 型 。 

(5) 每 个 选 定 的 机 顶 翻 详 模型 将 输入 查询 翻译 成 另 一 种 语言 。 

(6) 查询 解析 需 将 输入 和 翻译 后 的 文本 汇总 为 布尔 查询 的 “OR”( 或 ) 子 句 。 

之 后 ，Lucene QueryParser 将 得 到 扩展 ， 其 主要 方法 #parse 是 将 String 转换 为 Lucene 
Query 对 象 ， 如 代码 清单 7-1 所 示 。 


代码 清单 7-1 创建 包含 原始 查询 的 BooleanQuery 


QOverride 








public Query parse(String query) throws ParseFException f{ 


BooleanQuery .Builder builder = new BooleanQuery 
.Bullder(); 在 Lucene 中 创 
builder.add (new BooleanClause (super.parse (dquery), 圭一 个 布尔 查询 
人 小 刁 


个 “oR” 子 句 加 入 布尔 查询 
然后 ， 用 语言 检测 器 工具 提取 输入 查询 语言 。( 有 很 多 不 同 的 方法 可 以 完成 该 步 又， 但 现在 
重点 不 在 于 此 。) 你 将 使 用 Apache OpenNLP 项 目 中 的 LanguageDetector 工具 ， 如 代码 清 
7-2 所 示 。 


代码 清单 7-2 检测 查询 的 语言 


BooleanClause.Occur.SHOULD) ) ，; 
ee 解析 原始 用 户 查 询 ， 并 将 其 作为 一 
} 








Language language = languageDetector. 
DIredictLanoguage (uuery)? < 一 一 一 一 一 一 执行 语言 检测 
String languageCode = language.getLang(); 获取 语言 代码 


(en、it 等 ) 

这 里 假设 你 已 经 加 载 了 执行 机 带 翻 府 的 模型 ， 例 如 在 一 个 Map( 映射 ) 中 , 它 的 主键 是 声言 
代码 人 en, 意大利 语 为 a 以 此 类 推 ? )， 值 是 TranslatorTools 的 一 个 Collection 
(集合 )， 如 代码 清单 7-3 所 示 。 目前，TranslatorTool 是 如 何 实现 的 无 关 紧 要 ， 后 面 的 小 节 将 
关注 这 个 问题 。 


代码 清单 7-3 ”选择 正确 的 TranslatorTools 


private Map<String,Collection<TranslatorTool>> perLanguageTools,; 











QOverride 
public Query parse(String query) throws ParseFException f{ 


Collection<TranslatorTool> tools = 





J 此 处 语言 代码 为 该 语言 英文 名 称 的 前 两 位 字母 (小 写 ) 一 一 编者 注 
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获取 能 将 检测 到 的 语言 
翻译 成 其 他 语言 的 工具 


现在 已 经 加 载 了 机 可 翻译 工具 ， 可 以 使 用 它们 来 创建 要 添加 到 最 终 查 询 中 的 其 他 布尔 子 句 ， 
如 代码 清单 7-4 所 示 。 


代码 清单 7-4 ”转换 查询 并 用 翻译 后 的 文本 构建 查询 
for (TransjatorTool tt : tools) { 
Collection<Translation> translations = tt. 


tranmelate(duery)y 为 所 有 输入 查询 遍 
翻译 输入 历 所 有 可 能 的 翻译 
查询 for (Translation translation : translations) { 


String translationString = translation. 
一 人 getTranslationSstring().; 
builder.add (new BooleanClause (super.parse!l 
translationString), BooleanClause.Occur.SHOULD)); 


perLanguageTools.get (languageString); < 二 一 




















} 
} 





解析 已 翻译 的 查询 ， 
return builder.build(); 并 将 其 加 入 布尔 查 
得 到 翻译 文本 (每 一 个 翻译 由 文 完成 构建 布尔 询 以 供 返 回 
本 及 其 分 数组 成 , 它们 表示 了 该 查询 的 过 程 
翻译 的 质量 ) 








有 了 这 段 代码 , 就 可 以 使 用 一 个 查询 解析 顶 来 创建 多 种 语言 的 查询 了 ,其 中 缺少 的 部 分 是 用 
最 可 能 的 方法 去 实现 TranslatorTool 接口 。 要 做 到 这 一 点 ， 先 要 快速 浏览 理 机 带 翻 译 任务 
的 不 同方 法 。 首 先 你 将 学 习 一 个 统计 机 副 翻 译 工 具 ， 然后 转换 到 基于 神经 网 络 的 方法 。 这 将 帮助 
你 了 解 翻译 文本 的 主要 挑战 ， 以 及 基于 神经 网 络 的 模型 遂 当 是 如 何 提 供 更 好 的 机 各 翻译 模型 的 。 


7.2 统计 机 器 翻译 

统计 机 器 翻译 ( statistical machine translation，SMT ) 使 用 统计 方法 来 预测 什么 样 的 目标 单词 
(或 句子 ) 最 可 能 是 输入 单词 (或 句子 ) 翻译 。 例 如 ， 统 计 机 器 翻译 程序 应 该 能 够 回答 这 样 一 个 
问题 :“ 什 么 是 “hombre” 最 可 能 的 英语 翻译 ?” ”要 做 到 这 一 点 ， 需 要 在 并 行 语料库 上 训练 一 个 
统计 模型 。 并 行 语料库 ( parallel corpus ) 是 文本 片段 ( 文档、 句子 ,其 至 单词 ) 的 集合 ， 其 中 每 
段 内 容 都 有 两 个 版 本 : 源 语言 (如 西班牙 语 ) 版 本 和 目标 语言 (如 英 场 ) 版 本 。 下面 是 一 个 例子 。 


S: un hombre con una maleta 
t: a man with a suitcase 


统计 模型 ( statistical model ) 是 一 个 可 以 计算 源 文本 和 目标 文本 片段 概率 的 模型 。 一 个 经 过 
正确 训练 的 机 和 硕 翻 详 统计 模型 在 给 出 一 个 文本 户 段 最 可 能 的 翻译 时 ， 会 同时 提供 其 概率 。 


hombre -> man (0.333) 


翻译 后 的 文本 片段 的 概率 有 助 于 确定 翻译 好 不 好 ,以 及 能 否 用 于 搜索 。 统计 机 副 翻 详 模 型 会 
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评价 许多 可 能 的 翻译 的 概率 , 但 是 只 返回 概率 最 高 的 那个 。 如 果 要 求 统 计 机 需 翻 译 模型 输出 示例 
查询 “hombre” 的 所 有 概率 ,那么 好 的 翻译 会 对 应 高 概率 ， 而 不 相关 的 翻译 则 对 应 低 概率 。 这 个 
例子 输出 如 下 。 








man (0 .333) 
husband (0.238) 
love (0.123) 
woman (0.003) 
truck (0.001) 





统计 机 奋 翻 译 模 型 会 在 后 全 计算 每 一 个 可 能 翻 幸 的 概率 ,并 记录 概率 最 电 的 翻译 。 这样 的 算 
法 在 伪 代 码 中 看 起 来 是 这 样 的 “。 








f = 'hombre' 给 出 源 单词 “hombre”, 计 
for (each e in target language) 算 其 当前 目标 单词 的 概率 
plelf) = (pl(fle) * p(e)) / pl(f) 
0 0 
率 ， 则 得 到 一 个 最 佳 翻译 
> 一 ps 
Bem SS (elE) 
记录 最 佳 翻 
e~ = best translation, the one with highest probability 译 的 概率 
pe~ = the probability of the best translation 
记录 最 佳 





翻译 
该 算法 不 复杂 ， 唯 一 缺少 的 部 分 是 如 何 计 算 p(e) 和 p(e) 这 样 的 概率 。 在 信息 论 和 统计 学 中 ， 
pe 由 是 条 件 概 率 ， 即 给 定 f 时 ，e 的 概率 。 一 般 来 说 ， 可 以 认为 它 是 在 事件 了 发 生 的 条 件 下 ， 事 
件 e 发 生 的 概率 。 这 个 例子 中 ,“ 事 件 ” 就 是 文本 片段 ! 你 不 必 深 入 研究 统计 学 ， 可 以 将 单词 概 
率 设想 为 单词 出 现 频率 的 计数 。 例 如 , p(man) 等 于 man 这 个 词 在 并 行 语 料 库 中 出 现 的 次 数 。 同 样 ， 
你 可 以 假设 p(manlhombre) 等 于 在 与 包含 hombre 的 西班牙 语源 语句 相 匹 配 的 目标 语言 (本 例 中 为 
英语 ) 语 句 中 , 单词 man 出 现 的 次 数 .下面 有 三 组 并 行 的 语句 , 其 中 两 个 在 源 语句 中 包含 hombre， 
在 目标 语句 中 包含 man; 男 一 个 在 源 语句 中 不 包含 hombre， 但 在 目标 语句 中 包含 man。 


Ss: un hombre con una maleta 
t: a man with a suitcase 














S: un hombre con una pelota 
t: a man with a ball 


s: un senor trabajando 
t: a working man 


GD 参见 Bayes’ theorem 维基 百科 页 面 。 
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在 这 个 例子 中 ，p(manlhombre) 等 于 2。 在 男 一 组 并 行 语句 中 ，p(manlsenor) 等 于 1， 因 为 第 三 
组 并 行 语 名 在 源 场 可 中 包含 senor 而 在 目标 语句 中 包含 man。 总 而 言 之 , hombre 被 翻 详 成 了 man。 
这 是 因为 当 一 个 西班牙 语句 子 包含 hombre 时 ， 在 众多 可 能 的 选择 中 ，man 是 对 应 的 英语 句子 中 
出 现 频率 最 高 的 单词 。 

目前 ， 本章 已 经 介绍 了 一 些 统计 机 器 翻译 的 基础 知识 。 之 后 ， 本 章 还 将 介绍 一 些 挑 战 ， 这 些 
挑战 可 能 会 使 统计 机 需 翻 译 比 介绍 的 更 难 。 了 解 这 些 挑战 非常 重要 ， 因 为 神经 机 器 翻译 较 少 受到 
类 似 问题 影响 ， 这 也 是 当前 神经 机 器 翻译 (NMT ) 取代 了 统计 机 器 翻译 (SMT ) 的 部 分 原因 。 








7.2.1 对 齐 





7.1 方 提 到 ， 可 以 构建 一 个 统计 模型 来 翻译 文本 。 这 种 模型 根据 单词 的 频率 来 估算 概率 ， 从 
而 进行 翻译 。 实 际 上 ， 这 里 还 有 其 他 因素 在 起 作用 。 例 如 ， 两 个 词 /和 e 同时 分 别 在 源 语句 和 目 
标语 句 中 出 现 ， 但 并 不 意味 厦 其 中 一 个 可 以 翻译 为 另 一 个 。 在 前 面 提 到 的 句子 中 ，a 和 hombre 
共同 出 现 的 频率 高 于 man 和 hombre。 


s: un hombre con una maleta 








t: a man with a suitcase 


S: un hombre con una pelota 
t: a man with a ball 


S: un senor trabajando 
t: a working man 








那么 p(alhombre)=4、p(manlhombre)=2 是 否 意 味 着 a 是 hombre 的 英文 翻译 ?” 当然 不 是 ! 在 确 
定 hombre 的 正确 翻译 是 a 还 是 man 时 ， 这 个 信息 非常 重要 。 

但 是 翻译 后 的 单词 并 不 总 是 一 一 对 应 的 。 请 考虑 第 三 组 语句 。 在 这 个 语 境 中 ，senor 的 正确 
翻译 是 man， 但 是 senor 在 源 语句 中 的 词 序 排 第 二 位 ， 而 man 在 目标 语句 中 的 词 序 排 第 三 位 。 


s: un senor trabajando 
t: a working man 


处 理 在 源 语句 和 目标 语句 中 位 置 不 同 的 单词 的 任务 被 称 为 单词 对 齐 ( word alignment )，B] 
统计 机 楷 翻 幸 的 有 效 性 十 分 重要 。 统 计 机 右 翻 幸 模 型 通常 会 定义 一 个 对 齐 函 数 ( alignment 
function )， 该 函数 会 将 位 于 i 处 的 (例如 ) 西班牙 语源 单词 映射 到 位 于 了 处 的 英语 目标 单词 。 源 
语句 和 目标 语句 中 的 单词 用 索引 映射 的 方式 表示 对 应 关系 ,比如 下 面 的 例子 中 , 源 语句 和 目标 请 
句 中 对 应 单词 的 索引 映射 为 1 一 1、2 一 3 、3 一 2。 

s: un senor trabajando < 一 a 和 un 在 相同 位 置 


! cl 
人 < 一 man 和 senor 隔 了 一 个 位 置 


单词 对 齐 起 重要 作用 的 为 一 个 场景 是 不 同 语言 中 单词 之 间 没 有 一 一 对 应 的 关系, 在 这 些 语言 
不 是 源 于 同根 语言 时 ， 尤 其 如 此 。 再 举 一 个 西班牙 语 - 严 语 的 并 行 语句 例子 。 



































7.3 使 用 并 行 语 料 库 181 


S: Vivo en Estados Unidos 
t: I live in the USA 


这 里 有 两 种 特殊 情况 。 
口 西班牙 语 中 的 一 个 单词 vivo 被 翻译 为 英语 中 的 两 个 单词 I live。 
口 西班牙 语 中 的 两 个 单词 Estados Unidos 被 翻译 为 英语 中 的 一 个 单词 USA。 


S: Vivo en Estados Unidos 
A NN ~ 
t: I live in the USA 


单词 对 齐 函 数 需 要 注意 这 些 情况 。 


7.2.2 ”基于 短语 的 翻译 


到 目前 为 止 ， 本章 已 经 讨论 了 如 何 翻 详 单 个 单词 。 但是， 在 卓然 语言 处 理 的 许多 其 他 领域 ， 
在 不 知道 语 境 的 情况 下 翻译 一 个 单词 很 困难 。 基于 短语 的 翻 详 则 在 减少 翻 详 单 个 词 时 由 信息 缺乏 
导致 的 错误 。 通 音 ， 虽 然 基 于 短语 的 翻 详 需 要 用 更 多 数据 来 训练 好 的 统计 模型 , 但 它 能 更 好 地 处 
理 较 长 的 句子 ,而且 通 稼 比 基 于 单词 的 统计 模型 更 准确 。 你 在 基于 单词 的 统计 机 带 翻 详 模型 中 学 
到 的 所 有 内 容 都 适用 于 基于 短语 的 模型 。 唯 一 的 区 别 是 ， 翻 详 单 位 不 是 单词 ， 而 是 短语 。 

基于 短语 的 模型 在 接收 到 输入 文本 时 ,会 将 文本 分 解 为 短 十 。 每 个 短语 神 会 被 单独 翻 详 ， 然 
后 模型 会 使 用 短语 对 齐 函 数 对 每 个 短语 翻译 重新 排序 。 在 用 于 机 融 翻 详 的 神经 模型 取得 成 功 前 ， 
短语 ( 和 分 层 的 ) 统计 机 融 翻 译 模型 是 机 融 翻 译 的 业界 标准 , 被 用 在 许多 工具 中 , 例如 谷歌 翻译 。 
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很 多 人 可 能 已 经 意识 到 , 机 需 学 习 的 关键 之 一 在 于 拥有 大 量 高 质量 的 数据 。 机 融 翻 译 模型 通 
党 是 在 并 行 语料库 上 训练 的 。 在 并 行 语 料 库 中 ,( 文本 ) 数据 集 有 两 种 语言 的 版 本 ,方便 源 语言 
中 的 单词 、 语 句 映射 到 目标 语言 中 的 单词 、 语 句 。 

对 机 需 翻 译 感 兴趣 的 人 可 以 了 解 一 下 开源 并 行 语 料 库 ( Open Parallel Corpus ，OPUS ), 它 是 
一 个 非常 有 用 的 资源 。OPUS 提供 了 许多 并 行 资源 。 选 择 源 语言 和 目标 语言 ， 你 将 看 到 不 同 格式 
的 并 行 语 料 库 清单 。 各 个 并 行 语 料 库 通常 有 不 同 的 XML 格式 , 但 是 有 的 也 会 像 Moses 项目 那样 ， 
提供 专用 于 机 需 翻 译 的 格式 。 有 时 ，OPUS 还 提供 含有 词 频 的 翻译 词典 。 

在 这 种 情况 下 ， 可 以 配置 一 个 小 工具 来 解析 Translation Memory eXchange (TMX ) 格式 。 尺 
管 TMX 规范 不 是 最 新 的 ,但 OPUS 项 目 上 的 许多 现 有 并 行 语料库 提供 TMX 格式 ， 因 此 当 训 练 
第 一 个 NMT 模型 时 ， 能 解析 TMX 格式 非常 有 用 。 

TMX 文件 格式 对 每 个 并 行 语句 使 用 一 个 tu XML 节点 。 每 个 tu 节点 有 两 个 tuv 子 元 素 ， 
一 个 用 于 源 语句 ， 男 一 个 用 于 目标 语句 。 每 个 市 点 都 有 一 个 包含 实际 文本 的 seg 市 点 。 

下 面 是 一 个 从 秽语 翻译 成 意大利 语 的 TMX 文件 示例 。 
















































































了 
Qi 
沦 
3 
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<?xml] version="1.0" encoding="UTF-8" ?> 

<tmx version="1.4"> 

<header creationdate="Wed Jul 30 13:12:22 2014" 
srclang="en" 
adminlang="en" 
Oo-tmf="unknown" 
segtype="sentence" 
creationtool="Uplug" 
creationtoolversion="unknown" 
datatype="PlainText" /> 





<body> 
<tu> 
<tuv xml:lang="en"> 
<Seg> 
It contained a bookcase: I soon possessed myself of a volume. 
</Sed> 
</tuv> 


<tuv xml :lang="it"> 
<Seg> 
Vi era una biblioteca e io m'impossessal di un libro. 
</Sed> 
</tuv> 
</tu> 
</body> 
</tmx> 


最 后 ， 关 注 获 取 tuv 和 seg XML 市 点 的 内 容 ， 收 集 并 行 语 句 ， 以 获得 源 文 本 和 目标 文本 。 
为 此 ， 首 先 创 建 一 个 ParallelSentence (并 行 语句 ) 类 ， 如 代码 清单 7-5 所 示 。 








代码 清单 7-5 一 个 ParallelSentence 类 


public class ParallelSentence f{ 





private final String source; 
private final String target; 


public ParallelSentence(String source, String target) f{ 
this.source = source; 
this.target = target; 





public String getSource() { 
return Source; 


} 


public String getTarget() { 
return target,; 
} 
} 


接 下 来 ， 创 建 一 个 TMxparser 类 ， 用 于 从 TMX 文件 提取 并 行 语句 的 collection， 如 代 
码 清 单 7-6 所 示 。 
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代码 清单 7-6 解析 和 遍历 并 行 语料库 
TMXParser tmxParser = new TMXParser (Paths.get ("/path/to/it-en-file.tmx") 
EORTLe(D).,. Slt -Ven yy 
Collection<ParallelSentence> parse = tmxParser.parse();} 
for (ParallelSentence ps : parse) { 
String source = ps.getSource(); 
String target = ps.getTarget ( ) ; 








} 


TMXparser 将 查看 所 有 tu、tuv 和 seg 市 点 并 构建 Collection。 


public TMXParser (final File tmxFile, String 


SourceCode, String targetCode) { $= 创建 一 个 TMX 文件 上 的 解析 

















a 器 ， 定 义 源 语言 及 目标 语言 
public Collection<ParallelSentence> parse() throws IOException, 
读 取 文件 人 { 
try (final InputStream stream = new 
Rey (finol Toputsrroan stream | { 创建 一 个 XMLEventReader: 
final XMLEvVventReader reader = factory 一 个 工具 类 ， 它 每 读 取 到 一 个 
.CreatexMLEventReader (stream); TMX 元 素 就 产生 一 个 事件 
while (reader.hasNext ()) { 在 每 一 个 TMX 事件 上 和 迭代 
final XMLEVent event = reader.nextEvent(); (节点 、 属 性 等 ) 
if (event.isStartElement() && event.asStartElement () .getName ( ) 
.getLocalPart() .egquals ("tu")) { < 一 一 一 一 截获 tu 节点 
barse(recderyy 解析 tu 节点 ， 
: 读 取 所 包含 的 
| 并 行 语句 


} 


return parallelSentenceCollection; 





YY 


本 章 不 会 深入 解析 提取 并 行 语 句 的 代码 ， 因 为 分 析 XML 不 是 这 里 的 主要 关注 点 。 为 了 完整 
是 parseEvent 方法 的 要 点 。 


if (event.isEndElement() && event .asEndElement() be 


.GetName () .getLocalPart() .equals ("tu")) { 已 就 绪 
1if (source != null &é& target != null) f{ 7 


ParallelSentence sentence = new ParallelSentence(source, target).; 
parallelSentenceCollection.add (sentence); 
J 


return; 














} 

1if (event.isStartElement()) f{ 
final StartElement element = event .asStartElement ();} 
final String elementName = element .getName() .getLocalpPart(); 
switch (elementName) { 


Case, "tuVv": 从 一 
tuv 元 素 中 
Iterator attributes = element .getAttributes(),; 有 ee 
读 取 语言 代码 


while(attributes.hasNext ()) { 
Attribute next = (Attribute) attributes .nexXxt ( ) ，: 
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Code = next .getValue(); 


} 








break; 
i equals (code)) { 0 
U .Equ 、 
4 读 取 文本 
Source = reader.getElementText (); 
} else if (targetCode.equals (code)) { 
target = reader.getElementText ();} 
} 
break; 


} 

} 

使 用 生成 的 并 行 语 句 , 可 以 训练 一 个 机 带 翻 译 模型 ,该 模型 既 可 以 是 如 前 文 所 述 的 统计 模型 ， 
也 可 以 是 7.4 节 将 要 介绍 的 神经 模型 。 

7.4 ”神经 机 器 翻译 

在 了 解 所 有 关于 统计 机 可 翻译 和 并 行 语 料 库 的 背景 知识 后 , 你 现在 可 以 准备 学 习 神 经 网 络 为 
什么 及 如 何 用 在 (应 用 于 搜索 的 ) 机 楷 翻 译 环境 里 了 。 想象 有 一 位 工程 师 ,， 负责 为 一 家 非 营 利 组 
组建 立 一 个 搜索 引擎, 用 于 为 世界 各 地 的 用 户 提供 咨询 服务 。 他 们 需要 机 怖 翻译 模型 具有 尽 可 能 
多 的 语言 对 〈 例 如， 西班牙 语 到 英语 、 斯 瓦 厦 里 语 到 英语 、 英 语 到 西班牙 语 ， 等 等 )。 基 于 显 式 
概率 佑 计 的 统计 模型 训练 (如 前 面 讨论 的 基于 单词 或 短语 的 统计 机 需 翻 译 模型 ) 会 因 需 要 的 人 工 
工作 量 大 而 非常 费时 。 例 如 ， 针 对 每 一 个 语言 对 都 需要 进行 大 量 的 单词 对 齐 工 作 。 

当 NMT 模 型 最 初 被 引入 时 ,最 吸引 人 的 特性 之 一 是 ,它们 不 需要 太 多 的 调整 。 当 Ilya Sutskever 
展示 他 和 共同 作者 们 在 一 个 NMT 编 码 需 -解码 需 架 构 上 进行 的 工作 "时 , 他 说 :“ 我 们 用 最 小 的 创 
新 得 到 最 大 的 成 果 。” “这 被 认为 是 这 类 模型 最 好 的 特性 之 一 。 

这 种 方法 使 用 一 个 深度 的 长 短期 记忆 (LSTM ) 网 络 。 这 种 网 络 会 输出 大 癌 量 (big vector )， 
即 第 3 章 中 提 到 的 思维 向 量 ( thought vector )。 然 后 ,将 输入 序列 ( 和 思维 向 量 ) 反馈 到 另 一 个 
解码 天 LSTM, 该 解码 旭 生 成 翻译 好 的 序列 。 虽然 随 厦 时 间 的 推移 , 逐渐 有 不 同 “ 风 格 ” 的 NMIT 
模型 被 提出 ,但 是 ,使 用 编码 硕 - 解 人 码 磊 网络 这 一 主要 思想 仍 具 有 里 程 碑 章 义 : 这 是 第 一 个 完全 
基于 神经 网 络 的 模型 ， 它 在 机 需 翻 译 任 务 中 击败 了 统计 机 硕 翻 译 模型 。 

这 种 模型 可 以 灵活 地 在 不 同 领域 中 将 序列 映射 到 序列 ， 而 不 仅仅 是 在 机 妖 翻 译 中 。 例如 , 第 3 
章 提 到 的 seq2seq 编码 需 - 解 码 需 模型 可 以 用 于 执行 查询 扩展 ,第 6 草 提 到 的 思维 回 量 可 以 用 于 检索 
相关 内 容 。 现在 本 草 将 更 深入 地 探讨 这 些 模 型 的 工作 原理 , 以 及 序列 在 这 些 模型 中 如 何 流 入 、 流 出 。 


7.4.1 编码 器 -解码 器 模型 


在 更 高 层次 上 , 编码 带 LSTM 该 取 源 文本 序列 , 并 将 其 编码 为 一 个 固定 长 度 的 回 量 ,， 即 思维 
问 量 ， 然 后 此 回 量 进入 解码 天 LSTM， 由 解码 各 LSTM 输出 源 语 句 的 翻译 版 本 。 编 码 硕 -解码 天 
























































GD 参见 lya Sutskever、Oriol Vinyals 和 Quoc V. Le 的 文章 “Sequence to Sequence Learning with Neural Networks”。 
@) 参见 YouTube 网 站 上 由 Microsoft Research 发 布 的 视频 “NIPS: Oral Session 4 - Ilya Sutskever 。 
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系统 经 过 训练 ， 可 以 将 正确 翻译 给 定 源 语 句 的 概率 最 大 化 。 因 此 在 某 种 程度 上 ， 编 码 需 -解码 天 
网 络 就 像 许 多 其 他 基于 次 度 学 习 的 模型 一 样 ， 是 一 个 统计 模型 ! 它 与 “传统 ”统计 机 需 翻 译 的 区 
别 在 于 ，NMT 模型 通过 神经 网 络 学 习 来 最 大 化 所 生成 翻译 的 正确 性 ， 它 们 以 端 到 端的 方式 来 翻 
译 。 例 如 ， 编 码 舌 -解码 融 网 络 不 需要 专门 的 单词 对 齐 工 具 , 它 只 需要 包含 大 量 源 语句 -目标 语句 
对 的 集合 。 

编码 瑚 - 解 但 带 模 型 的 主要 特点 如 下 : 

口 它 易 于 创建 和 理解 ， 因 为 模型 是 直观 的 ; 

口 它 可 以 处 理 长 度 可 变 的 输入 序列 和 输出 序列 ; 

口 它 产 生 有 不 同 用 处 的 输入 序列 通信 ; 

口 它 能 用 于 不 同 领域 的 seq2seq 映射 任务 ; 

口 正如 刚才 所 解释 的 ， 它 是 一 种 闹 到 并 的 工具 。 

下 面 将 图 7-4 进行 分 解 ， 以 便 更 好 地 理解 模型 各 部 分 的 内 容 ， 以 及 各 部 分 如 何 协 同 工 作 。 这 
个 编码 需 由 一 个 递归 神经 网 络 (RNN ) 构成 通常 是 LSTM 或 其 他 蔡 代 品 ， 比 如 门 循环 单元 
( GRU” )， 这 里 不 加 详 述 。 请 记 住 ， 前 馈 网 络 与 RNN 的 主要 区 别 在 于 后 者 有 循环 层 ， 能 够 轻松 地 
处 理 无 限 的 输入 序列 ， 并 同时 保持 输入 层 大 小 固定 。 编码 妖 RNN 通 常 是 深度 网 络 ,， 有 不 止 一 个 隐 
藏 的 循环 层 。 第 3 章 介 绍 RNN 时 提 到 ， 在 提供 了 大 量 训练 数据 ,但 翻译 质量 仍 很 差 的 情况 下 ， 可 
以 增加 隐藏 层 。 一 般 来 说 ，2~5 个 循环 层 就 足以 训练 几 十 吝 字 节 大 小 的 数据 集合 。 编 码 融 网 络 的 
输出 是 思维 回 量 ， 它 对 应 编码 需 网 络 最 后 一 个 隐藏 层 的 最 后 一 个 时 间 步 。 例 如 ， 如 采编 码 锅 有 4 
























































个 隐藏 屋 ， 第 4 层 的 最 后 一 个 时 间 步 将 表示 思维 问 量 。 
目标 语 名 


内 部 表示 





源 语句 
图 7-4 ”编码 器 -解码 器 模型 


GD 参见 Kyunghyun Cho 等 人 的 一 篇 著名 文章 “Learning Phrase Representations Using RNN Encoder-Decoder for Statistical 





Machine Translation ”。 
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为 了 简单 起 见 , 考虑 翻译 一 个 由 意大利 用 户 编写 的 有 4 个 单词 的 句子 , 这 个 用 户 正 在 寻找 持 
意大利 身份 证 进入 碳 国 的 相关 信息 。 这 时 ， 源 语句 可 能 为 “carta id per gb ” 。 编 码 融 网 络 在 每 一 
个 时 间 步 输入 声名 的 一 个 单词 。4 个 时 间 步 之 后 ， 编 码 硕 网 络 已 经 输入 了 输入 语句 中 的 所 有 4 个 
单词 ， 如 图 7-5 所 示 。 











图 7-5 一 个 具有 4 个 隐藏 循环 层 的 编码 网 络 


说 明 在 实践 中 ， 输 入 序列 通常 是 倒序 的 ， 因 为 在 这 种 情况 下 神经 网 络 通常 会 给 出 更 好 的 结果 。 





第 2 草 介 绍 word2vec 时 ， 提 到 单词 经 常 被 转换 成 一 个 一 位 有 效 编码 问 量 ,方便 用 于 神经 网 
络 。 词 艇 入 是 word2vec 算法 的 一 个 输出 。 编 码 融 网 络 可 以 使 用 藤 入 层 (embedding layer ) 做 类 似 
的 事 。 输 入 层 的 维 数 ( 神经 元 数量 ) 等 于 源 语 句 集 合 词 汇 表 中 单词 的 数量 ， 每 个 输入 单词 对 应 一 
个 一 位 有 效 编码 向 量 。 记 住 ， 某 个 单词 的 一 位 有 歼 编码 回 量 (如 gb ) 是 一 个 表示 该 单词 的 位 置 
为 1， 其 余 所 有 位 置 为 0 的 向 量 。 在 进入 循环 层 之 前 ， 一 位 有 效 编 码 向 量 被 转换 为 一 个 比 输入 层 
维 数 小 的 词 租 入 层 。 这 个 移入 层 的 输出 是 一 个 单词 的 癌 量 表示 (一 个 词 艇 入 )， 类 似 于 使 用 
word2vec 获得 的 回 量 表示 。 

仔细 观察 编码 网 络 层 ， 会 看 到 一 个 与 图 7-6 类 似 的 栈 。 这 个 输入 层 由 10 个 神经 元 组 成 ， 这 
意味 着 源 语言 只 包含 10 个 单词 。 而 实际 上 ， 输 入 层 可 能 包含 上 万 个 神经 元 。 仍 入 层 缩小 了 输入 
单词 大 小 ， 并 生成 了 一 个 向 量 ， 其 值 不 仅 包 括 0 和 1， 还 包括 实数 。 和 从 入 层 输出 的 向 量 随后 被 传 
递 给 循环 层 。 

在 处 理 完 输入 序列 的 最 后 一 个 单词 后 , 一 个 特殊 的 标记 ( 例如 <Eos>, 句 尾 ) 被 传递 给 网 络 ， 
表示 输入 已 经 完成 ， 应 该 开始 解码 。 这 使 得 处 理 可 变 长 度 的 输入 序列 更 加 容易 ， 因 为 在 接收 到 
<EOS> 标 记 之 前 ， 解 码 不 会 开始 。 

解码 部 分 就 是 编码 部 分 的 锐 像 ， 唯 一 的 区 别 是 解码 旨 ( 见 图 7-7 ) 在 每 一 时 间 步 同时 接收 固 
定 长 度 的 向 量 和 一 个 源 单词 。 
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第 3 层 第 4 层 


(第 1 个 循环 层 ) (第 2 个 循环 层 ) 
SN Ca CC 
让 NS ZL 





个 SN GARE 
Op 三 ss pK NS 
5 NEP 
oY s OCR 





图 7-6 包含 10 个 单词 的 字典 的 编码 器 网 络 层 ( 直到 第 2 个 隐藏 循环 层 ) 














图 7-7 ”一 个 具有 4 个 隐藏 循环 层 的 解码 天 网 络 














解码 从 中 没有 使 用 鹏 入 层 。 在 每 一 个 时 间 步 , 解码 带 网 络 输出 层 的 概率 值 部 被 用 来 从 字典 中 
抽取 一 个 单词 。 接 下 来 请 看 一 个 使 用 DL4J 的 编码 右 - 解 公 带 LSTM 实践 。 





7.4.2 DL4J 中 用 于 机 器 翻译 的 编码 器 -解码 器 


DL4J 允许 通过 计算 图 (computational graph ) 声明 神经 网 络 的 结构 。 这 是 一 个 次 度 学 习 框 以 
中 的 稼 见 范 例 。 类 似 的 模式 也 应 用 在 其 他 流行 的 次 度 学 习 工 具 中 ， 如 TensorFlow、Keras 等 。 借 
助 神经 网 络 的 计算 图 ， 你 可 以 声明 存在 的 层 以 及 它们 是 如 何 相互 连接 的 。 

考虑 前 一 节 中 定义 的 编码 融 网 络 层 。 正 如 图 7-8 中 用 DL4J UI 做 的 可 视 化 展示 ， 这 里 有 一 个 
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输入 层 、 一 个 能 入 层 和 两 个 循环 (LSTM ) 层 。 编 码 器 网 络 计 算 图 如 下 。 
(inputLine) 


Embedding 
(embeddingEncoden) 


GravesLSTM 
(cilleele l= 
GravesLSTM 
(encoder2) 


LESEUUOSESESTEMSTUS 
(thoughtVectol) 


图 7-8 编码 需 层 


ComputationGraphConfiguration.GraphBuilder graphBRBuilder = 
builder.graphBRuilder () 


.addInputs ("inputLine", ...) 
.SetInputTypes (InputType. 





下 全 证 攻读 区 站 a...) < 一 为 RNN 指定 一 个 输入 类 型 
.addLayer ("embeddingEncoder", 
new EmbeddingLayer.Builder () < 一 创建 一 个 能 入 层 
-nin(dict.size()) 吝 入 层 期 待 的 输入 数量 
.nOut (EMBEDDING WIDTH) 等 于 词典 的 大 小 
输出 嵌入 .build(), 
向 量 宽度 "jnputLine" < 一 藤 入 层 输入 
aaaver ("eneoder"., < 一 增加 第 一 个 编码 器 层 
new GravesLSTM.Builder () | 编码 器 的 第 一 层 是 一 
.nNnIn (EMBEDDING WIDTH) 个 TN 层 
.nOut (HIDDEN_ LAYER WIDTH) 六 
.AaCctivation(Activation.TANH) 在 LSTM 层 中 使 用 
me 一 个 双 曲 正切 了 浮 数 


"embeddingEncoder") 
.addLayer ("encoder2", 
new GravesLSTM.Builder() 


编码 层 从 embeddingEncoder 
层 中 提取 输入 


.nNnIn (HIDDEN_ _ LAYER WIDTH) 意 n& Se 上 AS 一 己 
.nOut (HIDDEN_LAYER_ WIDTH) ee 
云 


.aCctivation (Activation.TANH) 





-BulLd(y)., 
人 | 编码 器 的 第 二 层 从 编码 器 
层 中 提取 输入 


7.4 神经 机 器 翻译 189 





解码 融 部 分 包含 两 个 LSTM 层 和 一 个 输出 层 ( 见 图 7-9 )。 输 出 层 上 的 softmax 函数 产生 输 
出 值 ， 对 这 些 输出 值 进行 采样 ， 作 为 翻译 后 的 单词 。 


GravesLSTM 
(eeweleL 
GravesLSTM 
(eeeel:lp 





RNnnOutput 
(output) 


图 7-9 解码 大 层 


.addLayer ("decoder", 
new GravesLSTM.Builder() 
.nIn(dict.size() + HIDDEN LAYER WIDTH) 
.nOut (HIDDEN_ LAYER WIDTH) 
.activation (Activation.TANH) 解码 器 循环 层 也 是 


eh 基于 LSTM 的 


"merge") 
.addLayer ("decoder2", 
new GravesLSTM.Builder() 
.nNnIn (HIDDEN LAYER WIDTH) 
.nOut (HIDDEN_ LAYER WIDTH) 
.activation (Activation.TANH) 
.build(), 
"decoder") 
.addLayer ("output", 
new RinOutputLayer,. Buildert) < 一 普通 RNN 输出 层 
.nNnIn(HIDDEN LAYER WIDTH) 
.NnOut (dict .size()) 


activation (Activation.SOFTMAX) 

.lossFunction (LossFunctions. 输出 是 一 个 由 softmax 激活 

LossFunction.MCXENT) 芳 数 生 成 的 概率 分 布 
.build(), 

"decoder2") 使 用 的 损失 函数 是 多 类 交叉 类 


EGGEOUEEUEETTOUEGOUET] > (multiclass cross entropy) 





此 刻 ， 你 可 能 认为 工作 已 经 完成 了 ， 但 是 编码 器 和 解码 器 还 没有 黏合 在 一 起 。 这 包括 以 下 
内 容 : 

口 思维 回 量 层 ， 它 捕获 源 单词 的 分 布 式 表 示 ， 用 于 解 权 需 生成 正确 的 翻译 单词 ; 

口 一 个 芝 路 输入 ， 被 解码 需 用 来 跟踪 它 生 成 的 单词 。 

这 个 图 较为 复杂 , 有 些 出 乎 意料 ，, 因为 神经 网 络 的 解码 端 会 在 每 个 时 间 步 同时 使 用 思维 向 量 
和 它 生成 的 输出 。 解 码 大 网 络 一 旦 在 专用 输入 上 接收 到 某 个 特定 单词 (如 go )， 就 开始 生成 翻译 
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后 的 单词 。 在 那个 时 间 步 上 , 解码 需 同 时 得 到 由 编码 器 生成 的 思维 向 量 输出 的 值 和 这 个 特殊 的 单 
词 , 并 生成 第 一 个 解码 后 的 单词 。 在 下 一 个 时 间 步 上 , 它 使 用 刚 生 成 的 解码 后 的 单词 作为 新 输入 ， 
结合 思想 癌 量 值 生成 后 续 单 词 ， 等 等 ， 直 到 它 产 生 某 个 用 于 停止 解码 的 特定 词 ( 如 Eos )。 

总 之 , 思维 向 量 层 被 反馈 到 编码 网 络 的 最 后 一 个 循环 层 (LSTM ), 并 在 每 个 解码 时 间 步 与 一 
个 单词 一 起 被 用 作 解 码 器 的 输入 ， 如 图 7-10 所 示 。 完 整 模 型 如 图 7-11 所 示 。 


inputLine 
(inputLine) 
Embedding 
(embeddingEncoder 
GravesLSTM 
(cialeere [= 
GravesLSTM 
(Sialolele [=1g24 | 


Le Mn 
(thoughtVecton) 


@lerelele [= [| oli Dolloene du esMene 
(el=oole [= [eT (elW]e) 


Mere {SMSmD 





















Le Mn 
(ner Te A/Selton) 
@[= oele [J ol Dioloel imeSeri 
(el=2elole [= [1 olUld) GravesLSTM 
本 


(merge) 





MergeVentex 
[(e[=20070 [>] 024 
GravesLSTM RnnOutput 
(Lee (output) 


图 7-10 ”连接 各 层 图 7-11 每 侧 具 有 两 个 隐藏 LSTM 层 的 
编码 融 - 解 码 需 模型 


图 7-10 中 编码 希 和 解码 天 之 间 的 连接 由 以 下 代码 实现 。 
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.addVertex("thoughtVector", new LastTimeStepVertexX ( 

















"jnputLine"), "encoder2") 
只 有 编码 器 最 后 一 个 
dVertex ("on "mew DuslicatemommeseriesyYerterl 时 间 步 的 输出 被 记录 
"decoderIinput"), "thoughtVector") 到 思维 向 量 中 
.addVertex("merge", new MergeVertex(), "decoderIinput" 
um dup ui ) 
为 解码 器 创建 一 个 新 的 时 间 序 列 输入 ， 这 个 
让 解码 器 准备 好 接收 时 ne 
: 二 间 | 序 列 输入 的 值 是 从 思维 向 量 初 始 化 的 
来 自 思维 向 量 和 解码 
器 侧 的 合并 输入 





建立 了 这 幅 计算 图 ， 你 就 准备 好 了 用 并 行 语料库 训练 网 络 。 要 做 到 这 一 点 ， 就 要 构建 一 个 
ParallelCorpusProcessor ( 并 行 语 料 库 处 理 需 )。 ParallelCorpusProcessor 处 理 并 行 语 
料 库 ， 例 如 从 OPUS 项 目下 载 的 TMX 格式 的 文件 。 处 理 融 提取 源 霹 句 和 目标 语句 ， 并 建立 单词 
字典 。 然 后 ， 该 词典 将 为 训练 编码 天 -解码 锅 模 型 提供 输入 和 输出 序列 。 

解析 TMX 文件 , 根据 








A 二 * 石 业 A 
包 合并 行 语料库 语言 代码 提取 源 语句 
TM SAO 和 目标 语句 〈 例 如 ， 
File tmxFile = new File("/path/to/file.tmx"),; 源 语句 为 “it”， 世 永 
ParallelCorpusProcessor corpusProcessor = new 语 旬 为 “en”) 
ParallelCorpusProcessor (tmxFile, "it", "en"); 
GOPDIEProeeesor ER < 一 一 一 处 理 语料库 
Map<String, Double> dictionary = 
OrDUSPEoCessor. OetDicEt); 二 一 一 一 检索 语料库 词典 
Collection<ParallelSentence> sentences = 
CorpusProcessor.getSentences ( ) ; < 一 一 一 检索 并 行 语句 








字典 现在 被 用 于 建立 网 络 ，( 对 于 一 位 有 效 编码 四 量 而 言 ) 字典 的 大 小 定义 了 输入 的 数量 。 
在 这 种 情况 下 ,字典 是 一 个 映射 ， 其 关键 字 是 单词 , 值 是 一 个 数字 ,该 数字 用 于 对 反馈 到 岁入 层 
时 的 每 个 单词 进行 标识 。 语 句 和 字典 对 在 并 行 请 名 上 构建 迭代 融 而 言 是 必需 的 。 然 后 ,并行 请 料 
库 上 的 pataSetIterator 被 用 于 在 不 同 轮 次 (训练 的 一 轮 , 是 在 训练 集 所 有 可 用 的 训练 样本 上 
进行 的 一 轮 完整 训练 ) 上 训练 网 络 。 














使 用 计算 图 构 构建 并 行 语 料 
建 网 纪 库 上 的 迭代 
ComputationalGraph graph = createGraph (dictionary. 





getSize()); 


ParallelCorpusIterator parallelCorpusIiterator = new 
ParallelCorpusIiterator (corpusProcessor),;) 


for (int epoch = 0; epoch < EPOCHS; epoch++) { 在 语料库 上 
while (parallelCorpusIiterator.hasNext()) { 迁 代 
MultiDataSet multiDataSet = parallelCorpusIiterator 


.next (); 
graph.fit (multiDataSet); 提取 一 批 输入 和 
} 在 当前 批 (训练 样本 ) 输出 序列 


} 上 训练 网 络 
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网 络 现在 开始 学 习 从 童 大 利 语序 列 生成 瑞 语 序列 。 如 图 7-12 所 示 ， 网 络 的 误差 减少 了 。 


DL4j Training UI 





Model Score vs. Iteration Model and Training Information 
Model Type ComputationGraph 
Layers 4 


Total Parameters 36261479 
Start Time 


Total RuNtime 








Last Update 2018-04-01 
08:17:41 
Total Parameter 611 
Updates 
Updates/sec .08 
( 2 Examples/sec 2.53 
Score : 142.25159, lteration : 
Update:Parameter Ratios (Mean Magnitudes): log10 Standard DeviationsJiaenfs Gradients Activations 
国 er embed E j 
BD de 图 inf 
本 en d ml dt 
ol WW ml dt 
\ decoder W 2 er 
A Bl encoder RW 
Vy ' 
A "M/A 入 


图 7-12 ”编码 天 -解码 着 网络 的 训练 


网 络 执行 的 翻译 由 输入 序列 的 所 有 单词 在 编码 硕 、 解 码 需 网 络 中 的 前 馈 传 递 构成 。 这 个 编码 
佛 网 络 实现 TranslatorTool API, out Dut 方法 对 神经 网 络 进 行 前 馈 传 递 ， 并 给 出 对 源 语 句 的 
翻译 版 本 。 


QOverride 

public Collection<Translation> translate(String text) { 
double Score = 0d; 
String string = Joiner.on(' ').jJoin(output (text, score)); 


Translation translation = new Translation(string, score); 
return Collections.singletonList (translation),; 


] 

output 方法 将 文本 序列 转换 为 回 量 ， 再 沿 厦 编码 融和 解码 逢 网 络 传递 这 个 回 量 。 文 本 回 量 
通过 ParallelCorpusProcessor 生成 的 单词 索引 被 反馈 进 网 络 。 然后 ， 可 以 将 一 个 String 
转换 为 List<double>， 后 者 是 对 应 源 语句 中 每 个 词素 的 单词 索引 有 序列 表 。 


Collection<String> tokens = corpusProcessor.tokenizeLine (text).; 
List<Double> rowIn = corpusProcessor.wordsToIndexes (tokens),; 


现在 ， 准 备 好 实际 的 回 量 ， 用 于 编码 硕 〈 输 入 问 量 ) 和 解码 硕 〈 解码 回 量 ) 的 输入 ， 并 对 编 
码 带 和 解码 胡 网 络 执 行 单独 的 前 馈 传递 。 编 码 带 前 馈 传 递 如 下 所 示 。 
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met .rnnClearpreviousState(),; 
Collections.reverse (TOWID ) ; 
Double[] array = rowIn.toArray (new Doublel[l0]).; 
INDArray input = Nd4]j.create(ArrayUtils.toPrimitivel(array), 
new int[] {1, 1, rowIin.size()}); 
int sizZe = CorpusProcessor.getDict().size();} 
double[] decodeArr = new doublel[lsizel; 
decodeArr|[2|] = 1; 
INDArray decode = Nd4j.create(decodeArr, new int[] {1, size, 1}); 
net.feedForward (new INDArray|[] {input, decode}, false, false);} 


解码 侣 的 前 馈 传 递 和 微 复杂 一 些 , 因为 它 硕 望 使 用 由 编码 骨 传 递 生成 的 思维 问 量 和 源 序 列 词 
素 丫 量 。 因 此 ， 在 给 定 一 个 思维 回 量 和 源 序 列 词素 癌 量 时 ， 解 码 融 在 每 个 时 间 步 执行 一 次 翻 详 。 


Collection<String> result = new LinkedList<>(); 
GravesLSTM decoder = (GravesLSTM) net .getLayer ("decoder"); 
Layer output = net.getLayer ("output").; 
GraphVertex mergeVertex = net.getVertex("merge"),; 
INDArray thoughtVector = mergeVertex.getInputs()1[1]; 
for (int row = 0; row < rowIn.size(); row++) { 
mergeVvertex.setinputs (decode, thoughtVector);} 
INDArray merged = mergeVertex.doForward (false).; 
INDArray activateDec = decoder.rnnTimeStep (merged),; 



































INDArray out = output.activate(activateDec, false); 

double idx = sampleFrom(output).,; 

result.add (corpusProcessor.getRevDict() .get (idx)); 

doublel[] newDecodeArr = new doublelsizel]; 

newDecodeArr[idx|] = 1; 

decode = Nd4j .create (newDecodeArr, new int[] {1, size, 1}); 





} 


return result; 


最 后 , 一 切 都 设置 好 了 ， 可 以 使 用 编码 带 - 解 码 带 网 络 开 始 翻 译 查 询 。( 在 实际 中 ,你 将 在 搜 
索 工 作 流 之 外 执行 训练 过 程 。) 训练 结束 后 ， 模 型 将 被 持久 化 到 磁盘 ， 然 后 由 本 间 开 头 定 义 的 查 
询 解 析 带 加 载 。 


ComputationGraph net 
File networkFile = new File("/path/to/file2save"); 




















ModelSerializer.writeModel (net, networkFile, true); 局 
7 
查询 解析 天 是 由 使 用 意大利 语 语句 的 编码 硕 - 解 权 硕 网 络 〈 以 及 语言 检测 融 工 具 ) 创建 的 。 


File modelFile = new Elilel(" /path/to/ftile2save" ) ; 

ComputationGraph net = ModelSerializer.restoreComputationGraph (modelFile); 
net .init (); 

TranslatorTool mtNetwork = new MTNetwork (modelFile); 


Map<String, Collection<TranslatorTool>> mappings = new HashMap<>(); 
mappings .put ("ita", Collections.singleton (mtNetwork)); 
LanguageDetector languageDetector = new LanguageDetectorME (new 
LanguageDetectorModel (new FileInputStream("/path/to/langdetect .bin"))); 
MTOuUueryParser MTOueryParser = new MTOuUueryParser ("text", 
new StandardAnalyzer(), languageDetector, mappings); 
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查询 解析 怖 的 内 部 日 志 将 告诉 你 它 如 何 翻 诺 传人 的 查询 。 假 设 一 个 意大利 用 户 想 知道 他 们 的 
身份 证 在 英国 是 否 有 效 , 那么 他 们 用 意大利 语 编写 的 查询 , 将 由 编码 器 -解码 器 网 络 翻译 成 英语 ， 
如 下 所 示 。 

q: validita della carta d'identita in UK 
detected language 'ita' for query 'validita della carta d'identita in UK' 
found 1 translation 
t: identity card validity in the UK 
'validita della carta d'identita in UK' was parsed as: 
' (text:validita text:della text:carta text:identita text:in text:UK),' 
OR 
' (text:identity text:card text:validity text:in text:the text:UK)' 


这 就 为 机 融 翻 译 〈 基 于 LSTM 网 络 的 编码 硕 -解码 融 模 型 ) 提供 了 端 到 端的 解决 方案 。 许 多 
机 怖 翻译 生产 系统 使 用 这 样 的 模型 或 者 它们 的 扩展 模型 。NMT 的 一 个 关键 好 处 是 ， 如 采 提 供 足 
人 够 的 训练 数据 ， 得 到 的 翻译 通 背 十 分 准确 。 但 是 , 这 样 的 模型 在 训练 时 需要 大 量 的 计算 资源 。7.5 
刷 将 讨论 使 用 单词 和 文档 般 入 (word2vec、 段 回 量 等 ) 实现 机 需 翻 译 程序 的 另 一 种 方法 。 与 本 节 
中 实现 的 模型 及 类 似 模型 相 比 , 它 虽 然 可 能 无 法 实现 同样 高 的 准确 率 , 但 需要 的 计算 资源 要 少 得 
多 。 因 此 ， 它 可 能 是 个 不 错 的 折 中 方案 。 


7.5 ”多 语言 的 单词 和 文档 散 入 


前 儿 章 使 用 了 词 租 入 (表示 单词 语义 的 币 密 向 量 )， 特别 是 word2vec 模型 ， 即 可 以 生成 同 义 
词 来 丰富 受到 沦 引文 档 的 文本 ,又 可 以 用 来 定义 排序 函数 ， 更 好 地 捕获 搜索 结果 的 相关 性 。 第 6 
草 提 到 过 一 个 段 回 量 算法 学 习 文本 序列 〈 文 档 的 全 部 或 一 部 分 ， 如 段落 或 句子 ) 的 稠密 向 量 ,， 你 
兽 用 它 来 推荐 相似 的 内 容 并 创建 为 一 个 (更 强大 的 ) 排序 函数 。 现 在 ,这 些 神 经 网 络 算法 都 将 应 
用 到 文本 翻译 任务 中 。 


线性 投影 单 语言 舱 入 


word2vec 模型 生成 的 词 问 量 的 一 个 关键 方面 是 , 当 这 些 回 量 被 绘制 成 回 量 空间 中 的 点 时 , 具 
有 类 似 含 义 的 单词 位 置 彼 此 徘 近 。 在 介绍 word2vec 的 论文 发 表 后 不 久 ， 参 与 论文 发 表 的 研究 人 
员 想 知道 ， 如 果 词 舱 入 来 自 相 同 但 是 经 过 翻译 的 数据 ,它们 会 发 生 什么 变化 。 在 内 容 相同 的 情况 
下 ,一段 瑞 语文 本 的 词 癌 量 和 西班牙 语文 本 的 词 癌 量 之 则 有 什么 关系 ?他 们 发 现 , 在 不 同 语言 中 ， 
表达 相同 意思 的 词 之 间 的 关系 有 极 高 的 几何 相似 度 。 例如 ,如 果 绘 制 出 数学 和 动物 在 英语 和 西 班 
牙 语 中 的 分 布 图 ， 束 可 以 看 到 它们 的 分 布 是 相似 的 ， 如 图 7-13 所 示 。 
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0.151 efour 0.2 @ cuatro (four) 
0.10 0.1 ® uNno (one) 
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-0.10 _0.3 


® three 








8 O dos (two) 
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图 7-13 ”Mikolov 等 人 的 论文 “Exploiting Similarities among Languages for Machine Translation ” 
中 的 瑞 语 和 西班牙 语 租 入 


这 些 视觉 上 和 几何 上 的 相似 度 表 明 ， 如 果 有 一 个 函数 ,可 以 将 喘 语 般 入 空间 中 的 词 癌 量 转 换 
为 西班牙 语 通 入 空间 中 的 词 癌 量 , 那么 它 是 翻译 单词 的 展 好 候选 方 荣 。 这 样 的 本 数 被 称 为 线性 投 
影 ( linear projection ), 因为 它 能 将 源 问 量 ( 对 于 瑞 声 单词 ) 乘 以 某 个 翻译 向 量 (translation vector )， 
把 源 词 投影 到 目标 单词 (西班牙 语 ) 上 去 。 假 设 对 来 自 英 语文 本 的 word2vec 模型 的 单词 cat， 有 
一 个 二 维 的 小 回 量 <0.1, 0.2> (在 实践 中 , 这 种 情况 永远 不 会 发 生 , 词 舱 入 的 实际 维度 通常 成 百 上 
于 )。 你 可 以 学 习 一 个 转换 矩阵 。cat 这 个 源 癌 量 ， 在 乘 以 该 转换 矩阵 后 ， 能 够 与 向 量 <0.07, 0.22> 
近似 。<0.07, 0.22> 是 单词 gato 在 西班牙 语 舱 入 空间 中 的 向 量 。 这 里 的 转换 矩阵 是 指 将 输入 向 量 
乘 以 转换 矩阵 权重 ， 并 输出 一 个 投影 向 量 。 

为 了 使 它 更 实用 ， 需 要 在 DL4J 中 设置 它 ， 并 使 用 英语 -意大利 语 并 行 语料库 〈 与 用 于 编码 
需 - 解 码 需 的 相同 )。 你 将 得 到 一 个 并 行 语料库 ， 构 建 两 个 独立 的 word2vec 模型 ， 一 个 用 于 源 语 
言 ， 一 个 用 于 目标 语言 ， 如 代码 清单 7-7 所 示 。 


代码 清单 7-7 构建 两 个 独立 的 word2vec 模型 
Collection<ParallelSentence> parallelSentences = new 
TMXParser (tmxFile, source, target) .parse(); < 一 解析 并 行 语 料 库 文件 


















































new LinkedqList<>() ， 为 源 语 句 和 目标 语句 分 
new LinkedList<>(); 别 创建 两 个 集合 


Collection<String> sources 
Collection<String> targets 
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for (ParallelSentence sentence : parallelSentences) { 
sources.add(sentence.getSource()); 
targets.add(sentence.getTarget () ) ; 











} 训练 两 个 word2vec 模 
型 ， 一 个 来 自 源 语句 ， 
Lv Leavyerolze. S00 一 个 来 自 目标 语句 


Word2Vec sourceWord2Vec = new Word2Vec.Builder() 
.iterate (new CollectionSentenceIterator (sources)) 
.tokenizerFactory (new DefaultTokenizerFactory()) 


.layerSize(layerSize) 
.build(); 嵌入 维度 等 于 word2vec 模型 的 隐藏 层 的 
sourceWord2Vec.fit(); 大 小 ， 且 必须 在 两 个 模型 之 间 保 持 一 致 。 
Word2Vec targetWord2vec = new Word2Vec.Builder() 
.iterate(new CollectionSentencelterator (targets)) 
.tokenizerFactory (new DefaultTokenizerFactory()) 
.layerSize(layerSize) 
.build(); 
targetWord2vec.fit(); 

















藤 入 维度 等 于 word2vec 模型 


训练 两 个 word2vec 模型 ,一 个 来 人 全 乓 人 
自 源 语 句 ， 一 个 来 自 目标 语句 人 页 在 


在 这 种 情况 下 ， 你 不 仅 需 要 原始 的 源 文本 和 目标 文本 ， 还 需要 有 关 单 词 翻 译 的 信息 。 你 要 能 
库 中 每 个 英语 单词 对 应 的 意大利 话 单词 翻译 包含 诸如 cat=gato 

类 的 信息 ) 或 单词 对 齐 的 语料库 来 获取 此 信息 。 在 语料库 中 , 可 以 获取 每 一 组 并 行 语句 的 源 单 
et en 

















Transferring trasferimento 
Transformation Trasformazione 
Transient transitori 


你 可 以 使 用 以 下 代码 解析 字典 。 


List<String> strings = FileUtils.readLines (dictionaryFile, 
Charset.forName ("utf-8")).; 
int dictionaryLength = strings.size() - 1; 





现在 , 你 已 经 学 习 了 类 语 语句 和 意大利 语句 的 词 舱 入 ,下 一 步 需要 建立 一 个 翻 幸 和 矩阵 。 为 此 ， 
需要 把 天 语 和 蕊 Rn 在 每 个 矩阵 中 ， 每 个 单词 占 一 行 ， 每 行 
包含 给 出 的 蛙 词 和 对 应 的 岁入 单词 , 如 代码 清香 7-8 所 示 。 从 这 些 和 矩阵 中 , 你 可 以 学 习 投 影 和 矩阵 。 


代码 清单 7-8 ”将 每 个 word2vec 模型 的 航 入 放 在 单独 的 矩阵 中 


INDArray sourceVectors = Nd4]j.zeros (dictionaryLength, layerSize),; 
INDArray targetVectors = Nd4j.zeros (dictionaryLength, layerSize),; 
i OWN En.: 
for (String line : strings) { 

String[] pair = line.split(" ); 

String sourceWord = pair[0]; 

String targetWord = pair[l1]; 
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if (sourceWord2Vec.hasWord (sourceWord) && 
targetWord2Vec.hasWord(targetWord)) { 
SourceVectors.putRow (count, sourceWord2Vec 
.getWordVectorMatrix(sourceWord) ) ; 
targetVectors.putRow (count, targetWord2Vec 
.getWordVectorMatrix (targetWord) ); 
COUNt++; 


} 

有 了 这 两 个 矩阵 ， 束 可 以 用 不 同 的 方法 学 习 投 影 和 矩阵 。 此 时 ,目标 是 使 每 个 日 标 单词 癌 量 与 
其 对 应 的 源 单 词 回 量 乘 以 转换 矩阵 后 的 距离 最 小 。 这 个 例子 使 用 了 一 种 称 为 正规 万 程 (normal 
equation ) 的 线性 回归 算法 。 长 话 短 说 ， 关 键 在 于 ， 这 种 方法 可 以 在 投影 矩阵 中 找到 值 的 组 合 ， 
从 而 获得 最 佳 的 翻译 结果 ， 如 代码 清单 7-9 所 示 。 


代码 清单 7-9 查找 投影 矩阵 




















INDArray pseudoInverseSourceMatrix = InvertMatrix.pinvert\( 
SourceVectors, false); < 逆转 源 向 量 算 阵 


INDArray projectionMatrix = pseudolInverseSourceMatrix.mmul ( 
targetVectors) .transpose(); 计算 转换 矩阵 


此 时 训练 阶段 结束 。 这 些 现 在 都 封装 在 称 为 LinearProjectionMTEmbeddings (线性 投 
影 通 入 ) 的 TranslatorTool (翻译 工具 ) 中 。 训练 步骤 可 以 在 构造 吨 数 中 执行 ， 也 可 以 在 专 
用 方法 (例如 1linearprojectMTembeddedings#train ) 中 执行 。 

从 现在 起 ， 可 以 使 用 两 个 word2vec 模型 配合 投影 算 阵 翻译 单词 。 针 对 每 个 源 单 词 ， 检 查 它 
的 词 符 入 ， 然 后 将 该 向 量 乘 以 投影 矩阵 。 这 样 的 候选 向 量 表示 目标 单词 向 量 的 近似 值 。 最 后 ,在 
目标 胎 入 空间 中 查找 候选 癌 量 的 最 近邻 ,与 找到 的 结果 问 量 关联 的 单词 就 是 你 想 要 的 翻 洋 ,如 代 
码 清单 7-10 所 示 。 


代码 清单 7-10 ”将 源 单 词 解 码 为 目标 单词 


public List<Translation> decodeWord(int n, String sourceWord) f{ 


if (sourceWord2Vec.hasWord (sourceWord)) { 
INDArray sourceWordVector = sourceWord2Vec 对 源 单词 检查 源 word2vec 
































.getWordVectorMatrix(sourceWord); 模型 是 否 有 一 个 词 向 量 
检索 词 INDArray targetVector = sourceWordVector 
嵌入 .mmul (projectionMatrix.transpose()); 将 源 向 量 与 投影 

Collection<String> strings = targetWord2Vec 和 矩阵 相 乘 
— > .wordsNearest (targetVector, n),; 

List<Translation> translations = new ArrayList<>(strings.size()); 
for (String s : strings) { 

Translation t = new Translationl(s, 

targetWord2Vec.similarityl(s, 
sourceWord) ) ; 
translations.add(t); 
log.info("added translation {} for {}", t, sourceWord);} 
} 
return translations; 
FE 将 翻译 结果 添加 到 最 终 
找到 最 近邻 的 Re 
候选 单词 ] 司 和 目 标 单词 之 间距 离 





的 分 数 


return Collections.emptyList(); 


) 


i 


你 可 以 在 更 长 的 文本 序列 上 提取 输入 文本 序列 的 词素 ， 进 行 逐 字 翻 译 ， 并 将 decodeWordqd 
方法 应 用 于 每 个 源 单 词 ， 如 代码 清单 7-11 所 示 。 


代码 清单 7-11 使 用 LinearProjectionMTEmbeddings 翻译 文本 


public Collection<Translation> translate(String text) { 
StringBuilder stringBuilder = new StringBuilder(); 
double Score = 0; 


List<String> tokens = tokenizerFactory.createl 将 输入 文本 切 分 为 
text) .getTokens ( ) ; 词素 〈 单 词 ) 


for (String t : tokens) { 
if (stringBuilder.length() > 0) { 
stringBuilder.append(' '),; 





} 一 次 翻译 一 个 单词 , 并 每 次 
List<Translation> translations = decodeWord\ 获得 一 个 准确 的 翻译 
下 坟 蝶 小 各 
Translation translation = translations.get(0).; 
score += translation.getScore(),; < 一 一 一 累计 翻译 分 数 
stringBuilder.append (translation); 在 stringBuilder 中 
: 累计 翻译 的 单词 


String string = stringBuilder.toString(); 
Translation translation = new Translation(string, 
Score / (double) tokens.size()); 
lO L0G("{} trareLoted. Lnteo ("> Cextr Chanelatrony); 生成 翻译 结果 , 包括 翻译 
return Collections.singletonList (translation),; 后 的 文本 和 分 数 





} 
现在 ， 终 于 准备 好 运行 测试 翻 详 了 ， 如 代码 清单 7-12 所 示 。 





代码 清单 7-12 测试 LinearProjectionMTEmbeddings 


Sstringl[] ts = new String[l]{"disease", "cure", 
"current", "jatest", "day", "delivery", "destroy", 

Vein VonaGine .OEheE. validity 测试 输入 单词 和 
"other ingredients", "absorption profile", 句子 
"container must not be refilled"}; 

File tmxFile = new File("en-it emea.tmx"),; < 一 并 行 语料库 文件 
File dictionaryFile = new File("en-it emea.dic"),; J 
LinearProjectionMTEmbeddings lpe = new 并 行 字典 文件 


LinearProjectionMTEmbeddings (tmxFile, 


ToDo em [es 
训练 模型 与 投影 矩阵 
for (String t : ts) { 
Collection<TranslatorTool.Translation> translations = 


linearprojectionMTEmbeddings.transalate(t).; 为 每 一 个 输入 文本 返 
System.out .println(t + " -> " + translations); 回 最 好 的 翻译 结果 


} 
结果 可 能 不 错 , 值得 期 竺 , 对 于 单个 单词 的 翻译 而 言 更 是 如 此 。 这 种 方法 单独 执行 每 个 翻译 ， 
而 不 使 用 周边 的 单词 ， 因 此 它 还 有 改进 的 空间 。 下 面 的 输出 中 ,每 个 翻 详 都 被 手动 添加 了 一 个 精 
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确 的 标记 ( 尖 括 写 )， 用 于 帮助 不 异 意 大 利 语 的 读者 。 


disease -> malattia <PERFECT> 

Cure -> curativa <AVERAGE> 

Current -> stanti <BAD> 

day -> giorno <PERFECT> 

destroy -> distruggere <PERFECT> 

design -> disegno <PERFECT> 

enoxacine -> tioridazina <BAD> 

other -> altri <PERFECT> 

validity -> affinare <BAD> 

Other ingredients -> altri eccipienti <PERFECT> 
absorption profile -> assorbimento profilo <GOOD> 
container must not be refilled -> sterile deve non essere usarla <BAD> 


输出 尽管 不 完美 , 但 是 还 不 错 。 一 个 经 过 适当 训练 的 编码 融 - 解 码 天 模型 工作 效 朱 可 能 更 好 。 
但 是 , 线性 投影 机 各 翻译 舱 入 需要 的 时 间 和 计算 资源 总 量 通 徊 很 低 , 因此 使 用 低 资 源 系 统 的 人 可 
能 愿意 和 位 协 。 此 外 ，word2vec 模型 可 以 在 其 他 上 下 文中 重用 。 例如 , 使 用 这 些 投 影 脱 入 进行 机 各 
翻 详 可 以 使 搜索 更 有 效 。word2vec 模型 还 可 以 在 排序 或 同义词 扩展 中 使 用 。 依 助 语言 检测 工具 ， 
你 可 以 选择 在 搜索 时 使 用 哪个 word2vec 模型 ， 就 像 之 前 进行 查询 扩展 时 一 样 。 
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D 在 搜索 环境 中 ， 机 融 翻 译 可 以 为 讲 不 同 语言 的 用 户 改 进 用 户 体 验 。 
D 统计 模型 可 以 达到 较 高 的 翻 详 准确 率 ， 但 是 ， 对 每 种 语言 进行 调 优 工作 量 不 小 。 
口 神经 机 融 翻 详 杭 型 提供 了 一 种 不 那么 清晰 但 更 强大 的 途径 ， 可 以 学 习 将 文本 序列 翻 详 为 
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本 草 内 容 

口 基于 内 容 搜 索 图 像 

DO 使 用 卷 积 神经 网 络 

口 使 用 示例 查询 搜索 相似 图 像 











传统 上 ， 大 多 数 用 户 使 用 搜索 引擎 时 ， 会 编写 文本 查询 并 得 到 ( 阅读 ) 文本 绪 来 。 鉴 于 此 ， 
本 书 大 部 分 内 容 的 重点 在 于 展示 神经 网 络 帮 助 用 户 搜索 文本 文档 的 方法 。 到 目前 为 止 , 已 经 介绍 
的 方法 如 下 。 

口 使 用 word2vec 从 搜索 引擎 接收 到 的 数据 中 生成 同义词 ， 这 使 得 用 户 更 容易 找到 他 们 因 茶 























种 原因 错过 的 文档 。 
口 在 后 台 借助 RNN 扩展 搜索 查询 ,使 搜索 引擎 能 够 以 更 多 的 方式 表达 查询 ， 而 无 须 用 户 编 
写 完整 的 查询 。 























口 使 用 词 艇 人 和 文档 能 入 对 文本 搜索 结 采 进行 排序 , 从 而 为 最 终 用 户 提供 更 相关 的 搜索 结 

口 使 用 seq2seq 模型 翻 详 文本 查询 ， 以 改进 搜索 引擎 ， 使 其 能 够 处 理 用 多 十 言 编 写 的 文本 ， 

进而 更 好 地 为 讲 不 同 语言 的 用 户 服务 。 

但 是 ， 用 户 越 来 越 迫 切 地 期 望 搜 索引 擎 变 得 “更 聪明 ”， 希望 它 能 够 处 理 的 内 容 不 仅 限于 用 
户 编写 的 文本 查询 。 用 户 布 望 搜索 引擎 能 够 使 用 语音 查询 ( 就 像 智 能 手机 的 内 置 麦 区 风 一 样 )， 
并 且 不 仅 可 以 返回 文本 文档 ， 还 可 以 返回 图 像 、 视 频 和 其 他 格式 的 相关 内 容 。 除 网 络 搜索 之 外 ， 
这 也 正在 成 为 其 他 类 型 的 搜索 引擎 索引 图 像 、 视 频 和 文本 的 标准 。 例 如 ,一 个 报纸 网 站 包含 的 不 
仅仅 是 文本 文章。 在 任何 一 家 报纸 的 主页 上 ， 除 文字 外， 人们 还 可 以 找到 多 媒体 内 容 。 因 此 ， 这 
些 网 站 的 搜索 引擎 需要 能 够 索引 图 片 、 视 频 和 文本 。 

一 段 时 间 以 来 , 数据 库 使 用 元 数据 来 为 图 像 编制 宗 引 , 将 图 像 的 标题 或 内 容 措 述 等 信息 附加 
到 网 像 上 。 传 统 的 信息 检索 扩 术 ,以 及 本 书 中 描述 的 较 新 的 方法 ,可 以 使 用 元 数据 标签 帮助 用 户 
找到 他 们 想 要 的 图 乒 。 但 为 需要 索引 的 每 一 幅 图 片 手动 制作 并 输入 描述 和 标签 不 但 乏味 、 寓 时 ， 
而 且 容 易 产 生 主 观 错误 一 一 毕 苋 对 同一 幅 图 像 ， 不 同 的 人 可 能 有 不 同 的 认识 。 比 如 , 一 个 索引 者 
可 能 将 图 片 内 容 描述 为 睡 椅 , 其 他 人 却 可 能 将 相同 的 内 容 描 述 为 沙发 。 如 果 能 够 宗 引 图 像 并 以 图 
像 的 本 来 面目 进行 搜索 ， 且 不 需要 任何 人 工 干 预 ， 那 不 是 很 好 吗 ? 
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本 章 将 讨论 如 何 做 到 这 一 点 : 为 搜索 引擎 配备 网 像 搜 索 功 能 ,使 用 尸 可 以 基于 图 片 内 容 ， 而 
不 是 其 内 容 的 文本 描述 搜索 网 片 。 要 建立 这 种 网 像 搜 索 ， 就 要 利用 卷 积 神经 网 络 。 卷 积 神经 网 络 
是 一 种 特殊 的 次 度 神 经 网 络 。 

图 像 搜索 引擎 需要 索引 图 像 特 征 。 在 讨论 机 带 学 习 时 ， 特 征 〈 feature ) 代表 语义 上 相关 的 数 
据 ， 人们 知 要 捕获 这 些 数据 ， 以 解决 特定 的 任务 。 更 具体 地 说 ,在 处 理 图 像 时 ， 图像 特征 可 以 由 
特定 的 图 像 点 或 区 域 ( 例如， 局 对 比 度 区 域 、 形 状 、 边 绿 等 ) 表示 。 本 章 将 首先 介绍 从 图 像 中 提 
取 重 要 请 义 的 传统 方法 ,因为 我 们 可 以 使 用 这 些 技术 为 从 图 像 中 提取 特征 提供 指导 。 这 是 一 个 关 
键 步 又 ， 因 为 提取 的 特征 可 以 用 来 进行 图 像 比 较 、 生 成 查询 和 回答 查询 ， 以 及 执行 搜索 引擎 的 其 
他 任务 。 

然后 ,本章 将 展示 使 用 深度 神经 网 络 提 取 图 像 特征 的 一 种 不 同 但 效果 更 好 的 方法 , 它 只 要 很 
少 的 人 工 操作 ,， 且 不 需要 手动 特征 提取 希 。 最 后 , 本章 将 研究 如 何 把 提取 的 特征 整合 到 搜索 引擎 
中 ， 同 时 考虑 管理 此 类 图 像 搜 索 所 需 的 时 间 和 空间 性 能 。 


























说 明 为 了 简单 起 见 ， 本 章 讨 论 的 是 图 像 而 不 是 视频 。 因 为 视频 本 质 上 是 一 系列 带 有 附加 音频 
字 节 的 图 像 ， 所 以 你 完全 可 以 将 本 章 中 的 方法 应 用 到 视频 搜索 场景 和 图 像 搜 索 场 景 。 
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第 1 章 人 简要 介绍 了 深度 学 习 最 有 前 途 的 一 个 方面 : 表示 学 习 (representation learning )。 表 不 
学 习 的 任务 是 获取 输入 数据 ( 如 图 像 ) 并 自动 提取 特征 ,使 程序 解决 特定 的 问题 更 容易 ( 如 识别 
哪个 对 象 出 现在 一 幅 图 像 中 ， 两 幅 图 像 有 多 相似 ， 等 等 )。 对 某 幅 图 像 而 言 ， 好 的 表示 应 该 是 有 
表现 力 的 ， 这 意味 着 表示 应 该 提供 这 幅 图 像 不 同方 面 的 相关 信息 ( 包含 的 对 象 、 灯 光 、 曝 光 等 )， 
同时 也 应 该 方便 比较 单个 方面 ( 例如， 人们 可 能 希望 通过 比较 学 习 后 的 表示 ,确定 两 幅 图 像 是 否 
包含 蝴蝶 )。 在 高 层次 上 ,使 用 深度 神经 网 络 学 习 图 像 表示 通常 遵循 图 8-1 所 示 的 简单 流程 ， 其 
中 像素 被 转换 为 边缘 ， 边 缘 转换 为 形状 ， 形 状 转换 为 对 象 。 






































图 8-1 增 量 学 习 图 像 抽象 


考虑 一 个 存储 在 计算 机 便 盘 上 的 图 像 , 看 看 这 样 的 二 进 制 表示 可 以 体现 关于 图 像 内 容 的 什么 
信息 。 你 能 像 打 开 一 个 文本 文件 一 样 快速 打开 一 个 图 像 文件 , 并 立即 识别 出 图 像 显 示 的 内 容 吗 ? 
答案 是 “不 能 ”"。 如 琳 你 查看 一 个 图 像 文件 的 原始 内 容 (例如 ,使 用 Linux 的 cat 命令 )， 那么 你 
无 法 从 内 容 中 看 出 图 像 中 有 什么 一 一 比如 一 只 蝴蝶 。 

S cat butterfly.jpg 


?这 了 DI 卫 天 开 二 开 工夫 
是 220 二 307201 
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当 使 用 合适 的 程序 打开 它 时 , 图 像 文件 会 显示 一 只 蝴蝶 。 尺 管 你 可 以 使 用 工具 “查看 ”图 像 ， 
但 计算 机 无 法 自动 识别 图 像 包 含 的 内 容 , 也 不 能 分 辨 图 片 是 关于 一 位 老 太 太 、 一 只 风景 中 的 野生 
动物 ,或 者 其 他 什么 事物 。 图 像 的 二 进 制 内 容 表 示 无 法 告诉 人 们 图 中 有 只 蝴蝶 。 

然而 ， 深 度 学 习 ( deep learning，DL ) 能 够 帮助 你 学 习 一 种 表示 方法 ， 在 使 用 正确 时 ， 该 方 
法 可 以 告诉 人 们 更 多 关于 图 像 内 容 的 信息 。 本 例 中 , 深度 神经 网 络 可 以 告诉 人 们 这 张 图 片 内 容 具 
有 蝴蝶 的 特征 。DL 算法 通常 可 以 在 深度 网 络 的 每 一 层 上 学 习 越 来 越 多 的 信息 ， 从 而 完成 这 种 识 
别 。 例 如 ,在 第 一 层 ， 它 学 习 边 缘 ; 在 后 续 的 层 中 ， 它 学 习 形 状 ; 在 最 后 一 层 ， 它 学 习 对 象 (如 
蝴蝶 或 蝴蝶 的 一 部 分 )， 以 便 分 辨 图 像 包含 的 内 容 。 此 外 ， 针 对 每 幅 图 像 ， 这 种 来 目 所 有 层 的 信 
县 通 第 被 编码 为 一 个 稠密 辐 量 表示 。 本 章 稍 后 会 快速 介绍 这 个 过 程 , 并 最 终 介绍 能 学 习 图 像 表 示 
的 深度 神经 网 络 。 

如 果 你 曾经 尝试 用 在 互联 网 上 找到 的 图 片 ( 当然 是 免 版 税 的 ) 制作 明信片 ,那么 你 可 能 在 搜 
索 与 某 个 感 兴趣 的 主题 相关 的 图 片 时 遇 到 过 如 下 问题 。 比 如 ， 你 给 侄子 或 侄女 买 了 一 辆 模型 车 ， 
想 打 印 一 张 汽 车 图 案 的 明信片 , 在 上 面 写 点 什么 ,一 起 寄 给 他 或 她 ,因此 你 打开 了 一 个 图 片 搜索 
引擎 ( 可 能 是 Google Imasges 或 者 Adobe Stock )， 在 查询 框 中 输入 类 似 “ 跑 车 ”这 样 的 内 容 。 这 
个 过 程 的 重点 是 ,用户 在 寻找 包含 特定 对 象 或 具体 特征 的 图 像 。 例 如 ， 你 可 能 想 要 一 辆 “红色 跑 
车 ”或 一 辆 “老式 跑车 ”。 图 像 搜 索引 苟 通 常 使 用 一 种 被 称 为 按 例 查 询 ( query by example，QBE ) 
的 机 制 , 即 你 上 传 图 片 或 拍摄 照片 作为 查询 的 输入 , 然后 , 搜索 引擎 返回 与 输入 图 像 相似 的 图 像 。 

暂停 正在 运行 的 查询 ， 看 看 这 个 QBE 是 如 何 工 作 的 。 先 从 思考 图 像 是 如 何 产生 的 〈 即 数码 相 
机 或 图 形 应 用 程序 如 何 创 建 并 存储 图 瞩 ) 开始 。 用 相机 拍 一 张 照片 ， 生 成 的 文件 会 存储 在 某 人 处 ， 
它 包 含 二 进 制 数 据 ( 由 很 多 0 和 1 组 成 )。 可 以 认为 这 幅 图 像 以 一 定 宽 度 和 高 度 的 网 格 形式 存储 
在 计算 机 中 ， 每 一 个 网 格 称 为 像素 (pixel )， 每 个 像素 都 有 特定 的 颜色 。 彩 色 像 素 可 以 用 不 同 的 
方式 表示 , 有 儿 种 色彩 模型 可 以 用 来 描述 颜色 。 为 简单 起 见 , 本 草 采 用 最 稼 见 的 方案 : RGB (red、 
green、blue， 即 红 、 绿 、 蓝 )。 在 这 个 方案 中 ， 每 种 颜色 都 是 由 红色 、 绿 色 和 蓝 色 混合 而 成 的 。 
这 3 种 颜色 的 取 值 范围 是 0~255， 表 示 每 个 颜色 组 合 中 红色 、 绿 色 和 蓝 色 各 有 和 多少。 每 个 这 样 的 
值 可 以 用 8 位 二 进 制 值 (2 =256 ) 表示 ， 因 此 值 的 范围 是 0~255。RGB 图 像 是 一 个 网 格 ， 它 的 每 
个 像素 由 代表 其 颜色 的 二 进 制 值 表示 “。 例如 : 红色 是 R:255、G:0、B:0; 蓝 色 是 R:0、G:0、B:255; 
等 等 。 

了 解 完 这 一 点 后 ， 继 续 之 前 的 查询 。 当 岁 像 只 是 一 系列 二 进 制 位 时 ， 如 何 匹 配 “ 跑 车 ”这 个 
查询 ?8.2 厄 将 介绍 一 些 匹 配 查询 和 图 像 的 方法 ， 还 将 介绍 一 些 可 以 用 于 查找 特定 跑车 的 技术 。 































































































Qj 尽管 在 实践 中 ， 图 像 可 以 有 很 多 不 同 的 格式 和 颜色 方案 ,但 核心 问题 是 图 像 通常 作为 普通 的 二 进 制 文件 存储 。 图 
像 可 选择 性 地 附 有 元 数据 ( metadata )， 但 元 数据 通常 也 不 会 说 明 关 于 其 内 容 的 任何 信息 。 
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8.2 ”回顾 : 基于 文本 的 图 像 检 过 


用 户 倾 回 于 根据 图 像 所 包含 的 对 和 象 ( 比如 跑车 ) 来 考虑 图 像 ， 而 不 是 根据 它们 的 RGB 值 ， 
这 是 理所当然 的 。 而 形状 和 颜色 更 适用 于 具体 指明 信息 需求 ， 比 如 用 户 在 搜索 跑车 时 ,可 以 指明 
要 找 的 是 红色 跑车 、 一 级 方程 式 赛 车 ， 还 是 其 他 类 型 的 跑车 。 

要 为 文本 查询 找到 匹配 的 二 进 制图 像 , 一 个 不 大智 能 但 比较 笛 用 的 方法 是 在 索引 时 给 图 像 深 
加 元 数据 。 如 果 在 对 几 像 进行 索引 时 ,每 幅 岁 像 和 都 有 相关 的 文本 标题 或 撒 述 ， 你 就 可 以 使 用 文本 
查询 进行 弟 规 搜索 。 搜索 将 返回 图 像 元 数据 文本 与 查询 文本 匹配 的 图 像 。 从 概念 上 讲 ， 这 与 常规 
的 全 文 搜索 没有 太 大 区 别 ， 只 是 搜索 结果 是 图 像 ， 而 不 是 文档 标题 或 摘录 。 

继续 使 用 跑车 这 个 查询 示例 。 假 设 有 4 幅 图 像 可 以 匹配 该 查询 ， 在 受 引 过 程 中 , 你 可 以 提取 
图 像 数 据 和 描述 每 幅 图 像 的 小 标题 ， 见 图 8-2。 图 像 数 据 用 于 将 实际 的 图 像 内 容 返 回 给 最 终 用 户 
(显示 在 搜索 结 末 列表 中 )， 图 像 的 文本 描述 用 于 肝 引 ， 以 匹配 查询 和 图 像 ( 见 图 8-3 )。 









































和 


图 8-2 手工 加 上 标题 的 跑车 图 像 


如 果 你 搜索 “跑车 ”， 搜 索引 擎 将 返回 图 8-2 中 的 所 有 图 像 。 如 果 搜 索 “Black Sports Car”， 
结果 列表 中 只 会 出 现 其 中 的 两 个 ( 记 住 , 在 查询 中 使 用 双 引 号 会 强制 匹配 整个 短语 “Black Sports 
Car”， 而 不 是 单个 单词 “Black”“Sports” 和 “Car”)。 

在 Lucene 中 可 以 直接 执行 这 种 检索 方法 。 图 像 二 进 制 文件 按 原 样 存 储 ， 但 是 图 像 描述 需要 
手动 输入 (搜索 结果 中 不 会 返回 描述 )。 
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把 图 像 内 容 存 


储 
x 用 字符 串 描述 
byte[] bytes = . 图 像 


令 像 二 进 制 内 容 添 | 
StPINo CESeriDELon SS. +» 进 制 内 容 添 2 
Document doc = new Document ( 9 storedField 字段 


doc.add (new StoredField("binary", bytes)),; 


doc.add (new TextField("description", description, Field.Store.NO)); 
冬 站 述 添 | a . 
writer.addDocument (doc);} 把 图 像 描 偿 深 加 到 文科 的 
索引 图 像 TextField 字段 
writer.commit().; 文档 


提交 索引 更 改 
在 搜索 时 ， 可 以 使 用 简单 的 文本 查询 。 


DirectoryReader reader = DirectoryReader 
.open (writer).; 








在 图 像 索 引 上 打开 一 个 





IndexReader 
IndexSearcher searcher = new 
IndexSearcher (reader).， | 
以 运行 查询 
TopDocs topDocs = searcher.search (new PhraseQuery ( 


"description", "black", "sports", "car"), 3); re 
for (ScoreDoc sd : topDocs.scoreDocs) { 对 标题 字段 执行 black sports 
Document document = reader.document (sd.doc); car 《黑色 跑车 ) 的 查询 
十 二 全 人 
IndexableField binary = document .getField( 获取 每 匹配 的 
"binary n ) ; 文档 

今 索 "binary" 
EN 
字段 BytesRef imageBinary = binaty.blinaryValue ( ) 


这 种 方法 可 以 处 理 少 量 图 像 , 但 拥有 数 百 万 或 数 十 亿 文 档 的 数据 是 非 肖 第 见 的 , 即使 是 一 家 
制作 明 信 刻 的 小 网 店 也 可 能 有 成 百 上 干 张 图 片 。 在 很 多 情况 下 ,要 求人 们 查看 每 一 幅 图 像 ( 这 会 
令 人 烦躁 )， 并 写 出 好 的 文本 描述 是 不 可 能 的 。 并 且 ， 这 样 的 文本 有 了 时候 对 于 一 些 搜索 不 够 好 。 
(在 生产 系统 中 , 像 “为 什么 查询 “黑色 跑车 ”不 返回 黑色 灾 光 跑车 ?请 更 改 描述 ， 以 便 匹 配 这 
样 的 查询 ”这 样 的 问题 并 不 罕见 。) 总 之 ， 这 种 方法 无 法 推广 ， 因 为 它 与 指 述 的 质量 崇 密 相关 : 

描述 不 佳 将 导致 > 


8.3 理解 图 像 


es 
和 其 他 可 识别 的 对 象 , 例如 “这 是 一 张 男人 的 照片 ”。 此外, 还 可 以 提 到 描述 性 的 细 市 , 例如 “这 
幅 图 像 显示 的 是 a 


和 二 进 制 格式 的 实际 图 像 ， 
然后 可 做 些 需要 的 处 理 
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模糊 性 来 目 一 个 简单 的 事实 ， 即 一 个 对 象 或 实体 有 多 种 描述 方式 。 


En 


图 8-3 一 些 被 描述 为 “ 蜗 个 子 男人 ”的 图 片 


个 子 男 人 ”这 一 描述 可 以 用 作文 本 查询 ， 而 图 8-3 中 的 3 幅 图 像 痢 符合 该 描述 。 然 而 ， 

让 间 的 图 像 与 其 他 图 像 有 所 不 同 。 这 的 确 是 一 张 高 个 子 男人 的 照片 但 也 是 一 张 NBA 球 员 的 照 

瞩 。 因 此 ， 其 他 短语 ， 包 括 “篮球 运动 员 ” 和 “ 穿 35 号 球衣 的 篮球 运动 员 ” 也 描述 了 这 一 形象 。 
一 名 负责 编写 简短 元 标签 的 人 不 可 能 想到 一 幅 图 像 所 有 可 能 的 措 述 方法 。 

同样 ， 像 “ 穿 35 号 球衣 的 篮球 运动 员 ” 这 样 的 描述 不 仅 完 美 地 符合 图 8-3 中 间 的 图 像 ， 而 

日 也 与 图 8-4 中 的 完全 不 同 的 球员 和 球 队 的 图 像 相 匹配 。 这 种 情况 下 ,用户 可 能 正在 寻找 菏 一 类 

图 像 ， 却 得 到 了 完全 不 同 的 类 型 ， 而 两 者 具有 相同 的 描述 性 元 标签 ， 并 且 会 出 现在 搜索 结果 中 。 























CEL 
35 eT 


图 8-4 ”一 些 被 描述 为 “ 穿 35 号 球衣 的 篮球 运动 员 ” 的 图 片 


这 些 简 单 的 例子 说 明 ， 文 本 极 易 出 现 误 匹 配 ， 因 为 单个 实体 ( 人、 动物、 物品 等 ) 可 以 用 多 
种 方式 进行 描述 。 这 使 得 搜索 结 末 的 质量 依赖 于 如 下 方式 : 
用户 定 义 查询 的 方式 | 8 
口 文档 的 书写 方式 。 
你 已 经 在 搜索 这 一 博 境 中 见 过 这 样 的 问题 , 这 也 是 人 们 使 用 同义词 查询 扩展 等 的 原因 之 一 。 
搜索 引擎 必须 有 足够 的 智能 来 增强 查询 和 索引 文档 。 
相反 , 图 像 从 视觉 上 看 通常 很 少 受 这 种 模糊 性 的 影响 ,再 去 看 第 一 幅 补 描述 为 “局 个 子 男人 ” 
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的 图 像 ， 找 到 与 之 视觉 上 相似 的 图 像 ， 例 子 如 图 8-5 所 示 。 


和 
ny 


图 8-5 一 些 视觉 上 相似 的 图 像 


输入 图 像 可 以 更 好 地 定义 图 像 中 的 内 容 ， 而 不 必 考 虑 文本 描述 的 不 同方 式 。 同 时 , 分 辨 一 幅 
图 像 是 否 与 输入 图 像 不 相似 非 党 容易。 例如， 从 图 中 人 物 衣 服 的 颜色 和 类 型 来 看 ， 图 8-3 中 篮球 
运动 员 的 图 像 明显 不 同 于 图 8-5 中 的 图 像 。 

用 示例 图 像 代 替 文 本 作为 输入 查询 (也 称 为 按 例 查询 ，querying by example ) 在 图 像 搜索 平 
人 台中 非常 第 见 。 在 平台 中 ， 系 统 试图 从 图 像 中 提取 语义 信息 以 进行 准确 检索 ， 而 不 是 用 文本 元 
数据 描述 每 幅 图 像 ， 因 此 用 户 得 以 通过 可 视 化 的 查询 来 表达 查询 意图 。 和 文本 查询 一 样 ， 查 询 
的 质量 也 会 影响 结果 的 相关 性 。 思 考 一 下 文字 查询 中 的 相似 情况 ， 可 能 会 对 此 有 所 帮助 。 查 询 
“红色 的 车 ”的 返回 结果 可 能 包含 任何 红色 的 车 , 范围 可 以 从 玩具 车 到 一 级 方程 式 赛车 。 如 果 查 
询 是 “红色 跑车 ”或 “红色 一 级 方程 式 赛 车 "， 那 么 相关 结果 的 范围 可 能 不 会 那么 宽泛 和 模糊 。 
这 同样 适用 于 视 党 查询 和 搜索 结果 : 查询 ( 所 需 信 息 的 可 视 化 描述 ) 越 准 确 ， 搜 索 结 果 越 好 。 
对 于 图 像 搜 索 而 言 ， 最 重要 的 不 再 是 用 户 编写 一 个 “好 ”查询 的 能 力 ， 而 是 负 贡 提取 索引 信息 和 
搜索 图 像 的 算法 。 例 如 ,捕捉 图 像 中 的 对 象 和 它们 的 特征 ( 颜色、 光线 、 形 状 等 ) 就 是 这 一 领域 
的 挑战 之 一 。 

现在 ， 有 了 所 需 的 知识 ,你 就 可 以 开始 人 研究 从 图 像 中 提取 信息 ， 并 以 某 种 方式 表示 它们 ， 从 
而 让 运行 查询 并 返回 有 意义 结果 成 为 可 能 。 
























































8.3.1 ”图像 表示 


现在 最 大 的 挑战 是 ， 如 何 描 述 图 像 才能 通过 它 找到 相似 的 图 像 。 在 本 例 中 ,你 希望 制作 一 张 
明信片 ， 同 礼物 放 在 一 起 。 如 有 果 能 用 相机 拍 下 礼物 的 照片 ， 并 用 其 在 图 像 搜 索引 擎 中 进行 查询 ， 
那 就 太 好 了 。 这 样 ， 明 信和 片上 就 会 有 一 张 好 看 的 图 片 。 当 你 把 它 送 给 收 件 人 的 时 候 ， 它 就 能 提示 
礼品 盒 里 有 什么 东西 。 

虽然 图 像 是 由 像素 组 成 的 , 但 是 进行 单纯 的 像素 比较 是 不 可 能 的 。 针 对 图 像 内 容 , 单独 的 像 
系 值 不 能 提供 足够 的 信息 。 问 题 在 于 ， 像 素 仅 代 表 网 像 极 小 的 部 分 ,不 提供 其 语 境 信 息 。 红 色 像 
素 既 可 能 是 红色 平 末 的 一 部 分 ， 也 可 能 是 红色 汽车 的 一 部 分 ， 单 独 观察 像素 无 法 确定 它 来 目 哪 
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一 幅 图 像 。 即 使 像 系 本 身 给 出 了 关于 图 像 的 有 用 全 局 信息 ， 目 前 的 高 清 网 片 可 能 包含 数理 万 像 
素 ， 因 此 执行 像素 与 像素 的 比较 在 计算 上 没有 效率 。 此 外 ， 即 使 在 完全 相同 的 条 件 下 《光线 、 
曝 多 等 ) 为 同一 对 象 拍摄 两 张 照片 ， 只 要 角度 稍微 有 所 不 同 ， 就 可 能 导致 图 像 的 二 进 制 内 容 差 
异 很 大 。 

在 本 例 中 , 你 想 在 家 里 哲 一 张 礼物 的 照片 一 一 一 辆 红色 的 跑车 模型 ,而 不 天 心照 明 条 件 和 扫 
摄 照片 的 精确 角度 。 例 如， 你 可 以 哲 摄 一 张 如 图 8-6 所 示 的 照片 ， 并 希望 图 像 搜 索引 敬 返 回 一 辆 
真实 的 红色 跑车 的 图 片 (最 好 和 跑车 模型 一 样 )， 如 图 8-7 所 示 。 




















图 8-7 根据 玩具 图 片 从 搜索 引擎 检索 到 的 一 辆 红色 跑车 的 照 厂 
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为 了 解决 像 系 提 供 不 了 什么 信息 的 问题 , 创建 可 搜索 图 像 时 用 得 最 广 的 搁 术 之 一 是 从 图 像 中 
提取 视觉 特征 ( visual feature ) 并 索引 这 些 特征 ， 而 不 是 “只 ”提取 像素 。 这 些 视觉 特征 有 望 提 
供 可 用 于 图 像 内 容 碍 找 的 信息 。 特 征 通 稼 由 一 组 数字 或 四 量 表 示 。 











说 明 8.3.2 节 将 讨论 几 个 特征 提取 技术 ， 那 时 你 将 看 到 这 意味 着 什么 。 理 解 基于 非 神 经 网 络 方 
法 的 特征 提取 的 工作 原理 ， 有 助 于 为 理解 它们 所 能 传达 的 语义 种 类 、 它 们 与 基于 深度 学 
习 技 术 的 特征 提取 的 不 同 之 处 (对 人 来 说 可 读 性 更 差 ) 黄 定 基础 。 本 章 后 文 将 提 到 ， 与 
设计 精确 的 特征 提取 算法 相 比 ， 使 用 深度 学 习 技 术 需 要 的 工程 量 要 少 得 多 。 同 样 重要 的 
是 ， 在 编写 本 书 时 ， 基 于 深度 学 习 的 特征 提取 击败 了 每 个 人 工 特征 提取 算法 。 


搜索 引 苟 必须 利用 这 些 特征 在 QBE 场景 中 找到 相似 图 像 。 它 会 在 索引 时 从 图 像 中 提取 特征 ， 
在 查询 时 从 示例 查询 图 像 中 提取 特征 。 提 取 特 征 对 理解 图 片 内 容 十 分 重要 。 人 然而 ,， 男 一 个 方面 也 
非常 重要 , 那 就 是 如 何 有 效 地 比较 不 同 图 像 的 特征 。 特征 索 引 技 术 将 影响 存储 这 些 倒 排 索引 所 需 
磁盘 空间 的 大 小 ， 要 在 搜索 时 高 效 地 检索 图 像 ， 束 要 有 能 够 快速 搜索 特征 的 搜索 算法 。 
视觉 特征 可 以 有 不 同类 型 。 
口 它们 可 以 指 问 全 局 特征 ( global feature )， 如 网 像 中 用 到 的 颜色 、 识 别 出 的 材质 ， 或 RGB 
和 其 他 颜色 模型 ( CMYK、HSYV 等 ) 的 全 局 值 或 平均 值 。 
口 它们 可 以 指 问 局 部 特征 (local feature， 提 取 目 图 像 的 某 部 分 )， 如 图 像 单元 中 的 边缘 、 角 ， 
或 其 他 值得 关注 的 关键 点 〈 例 如 尺度 不 变 特 征 变换 、 加 速 稳健 性 特征 、 高 斯 差分 国 数 等 
方法 ， 本 童 后 文 将 对 它们 进行 讨论 )。 
口 归功 于 次 度 神 经 网 络 的 使 用 ， 它 们 可 以 作为 语义 抽象 ， 被 端 到 端 地 学 习 ， 以 接近 人 类 的 
认 知 过 程 。 
前 两 种 类 型 通常 被 称 为 手动 (handcrafted ) 特征 ， 因 为 它们 各 目的 算法 基于 局 发 式 的 目的 进 
行 了 设计 和 调整 。 许 多 基于 深度 学 习 的 图 像 表示 模型 加 网 络 层 反 馈 网 像 像素 (作为 神经 网 络 的 输 
入 ) 并 学 习 对 图 像 进 行 分 类 ( 网 络 输出 类 别 )。 在 训练 期 间 ， 神 经 网 络 日 动 学 习 特 征 。 这 正 是 上 
述 第 三 种 类 型 的 特征 。 
现在 ， 本章 将 介绍 一 些 提 取 局 部 的 和 全 局 的 手动 特征 的 方法 。 然后， 本 草 将 专注 于 基于 深度 
学 习 的 图 像 特 征 学 习 。 






































8.3.2 ”特征 提取 


许多 相机 具有 即 拍 即 看 功能 ， 其 中 一 些 还 会 提供 图 像 中 的 颜色 数值 信息 ， 即 3 个 RGB ( 红 
色 、 绿 色 、 蓝 色 ) 通道 中 每 一 个 通道 的 信息 。 以 一 幅 蝴 蝶 的 图 片 为 例 ， 如 图 8-8 所 示 。 拍 摄 该 图 
片 的 相机 提供 了 它 的 颜色 直方 图 ， 如 图 8-9 所 示 。 
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图 8-8 ”蝴蝶 图 片 图 8-9 蝴蝶 图 瞩 的 颜色 直方 图 


颜色 直方 图 可 以 展示 像 系 中 3 个 颜色 通道 的 值 (例如 0~255 ) 的 分 布依 况 。 例 如， 如 采 一 幅 
图 像 中 某 个 像 系 的 红色 通道 值 为 4， 而 态 一 个 像 系 的 值 与 之 相同 ， 则 该 图 像 红 色 通 道 的 颜色 下 方 
图 上 , 值 为 4 时 大 小 是 2〈2 个 像 系 具有 值 为 4 的 红色 通道 ) 将 这 个 过 程 应 用 于 菏 图 像 的 所 有 通 
道 和 像素 ,会 产生 如 图 8-9 所 示 的 红色 、 ee 展示 了 
一 种 非 稼 简单 直观 的 全 局 特征 ， 而 该 特征 可 以 用 来 摘 述 图 像 。 接 下 来 本 章 将 详细 介绍 全 局 和 局 部 
特征 抽取 从 


1. 全 局 特征 

与 其 用 标题 或 描述 手动 标记 图 像 以 索引 它们 ， 不 如 索引 附 有 提取 后 特征 的 图 像 二 进 制 文 
件 ， 如 图 8-10 所 示 。 为 此 ， 你 可 以 使 用 开源 库 Lucene Image Retrieval ( LIRE， 按 GNU GPL2 
许可 证 进行 许可 ) 从 图 像 中 提取 颜色 直方 图 。LIRE 提供 了 许多 有 用 的 图 像 处 理工 具 ， 这 些 工 
具 适 用 于 Lucene。( 在 编写 本 书 时 , 它 还 不 文 持 任何 基于 深度 学 习 的 图 像 特 征 提 取 方 法 。) 这 里 
有 一 个 例子 。 


创建 一 个 颜色 
File file = new File(imgPath); | 图 像 文件 直方 图 对 象 


SimpleColorHistogram simpleColorHistogram = new SimpleColorHistogram(); 


























BufferedIimage bufferedImage = ImageIO.read (file); 从 文件 中 
读 取 图 像 


simpleColorHistogram.extract (bufferedImage);} 


double[] features = simpleColorHistogram.getFeatureVector(),; 
从 图 像 中 提取 颜色 直方 图 提取 颜色 直方 图 特征 向 量 
数组 


到 一 个 双 精 度 浮 点 数 数 











索引 图 像 二 进 制 
内 容 和 特征 


图 8-10 ”用 特征 索引 图 像 
这 样 的 全 局 图 像 表 示 具 有 人 类 可 和 解释、 性 能 高 效 的 优点 。 但 是 ， 如 果 思 考 一 下 颜色 直方 图 图 
像 表 示 与 图 像 上 的 颜色 分 布 有 关 ( 而 忽视 了 位 置 ) 这 一 事实 ， 则 不 难 认识 到 ， 具 有 相同 主题 ( 如 
蝴蝶 ) 的 两 幅 图 像 颜 色 分 布 可 能 大 相 径 姓 。 请 考虑 前 面 显示 的 蝴蝶 图 像 ( 如 图 8-8 所 示 )、 男 一 
幅 蝴 蝶 图 像 ( 如 图 8-11 所 示 )， 以 及 两 幅 图 的 对 比 (如 图 8-12 所 )。 





图 8-11 男 一 幅 蝴 蝶 图 像 
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图 8-12 ”两 幅 蝴 蝶 图 像 的 下 方 图 对 比 


虽然 这 两 幅 图 像 的 主题 都 是 蝴蝶 ,但 它们 配色 不 同 ,图 8-8 的 主 色调 是 黄色 和 绿色 , 而 图 8-11 
的 主 色 调 是 红色 、 赣 色 和 黄色 。 基 于 下方 图 的 图 像 比 较 大 多 是 基于 颜色 分 布 的 。 这些 图 像 的 直方 
图 看 起 来 非常 不 同 ( 见 图 8-12 )， 因 此 搜索 引 敬 不 会 认为 这 些 图 像 相 似 。 记 住 ， 此 刻 搜索 还 没 开 
运行， 你 正在 分 析 直 方 图 特征 ， 试 图 了 解 它 可 以 提供 什么 样 的 信息 。 

颜色 直方 图 方案 是 提取 全 局 特征 的 众多 可 能 方法 中 的 一 种 。 总 体 来 说 ,这样 的 方法 存在 难以 
捕捉 图 像 细节 的 问题 。 例 如 ， 第 一 幅 蝴 蝶 图 像 中 不 仅 包 含 蝴蝶 ， 还 有 花 和 叶 。 这 些 实体 没有 被 颜 
色 直 方 图 捕获 。 粗 略 地 说 ， 这 样 的 直方 图 告诉 你 :“ 这 里 有 一 定量 的 浅 绿 色 、 一 定量 的 黄色 、 少 
量 白色 、 一 些 黑色 ， 等 等 。” 在 某 些 情况 下 ， 全 局 特征 可 以 很 好 地 工作 ， 其 中 之 一 就 是 重复 图 像 
检测 ， 即 搜索 者 寻找 与 手头 的 图 像 非常 相似 (或 完全 一 样 ) 的 网 像 。 

有 一 个 细节 对 解决 上 述 问题 非常 有 用 , 那 就 是 区 分 照片 的 背景 区 域 和 中 心 图 像 。 上 述 两 幅 蝴 
蝶 图 像 可 以 在 某 种 程度 上 说 明 包 含 蝴蝶 的 区 域 比 背景 部 分 更 重要 。 


2. 局 部 特征 

与 全 局 特征 相 比 ， 局 部 特征 可 以 更 准确 地 捕获 图 像 局 部 的 细节 。 因 此 ， 如 果 想 让 程序 在 网 像 
中 检测 潜 的 兴趣 对 和 象 ( 例如 蝴蝶 )， 人 们 通常 会 先 将 图 像 分 割 成 更 小 的 单元 ， 然 后 在 这 些 单 元 中 
查找 相关 的 形状 或 对 象 。 图 8-13 展示 了 该 过 程 。 此 处 使 用 了 与 图 8-12 中 左 图 相同 的 蝴蝶 图 像 ， 
但 是 将 其 分 割 成 更 小 的 单元 。 









































图 8-13 图像 分 割 为 更 小 的 单元 
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一 旦 图 像 分 割 成 更 小 的 部 分 ( 如 正方 形 )， 就 可 以 提取 局 部 特征 ， 包 括 两 个 步骤 : 

(1) 找到 识别 兴趣 点 ( interesting point ) “而 不 是 对 象 ; 

(2) 将 关于 局 部 区 域 的 识别 兴趣 点 编码 到 描述 符 中 ， 该 摘 述 符 稍 后 可 用 于 匹配 关注 区 域 。 

这 里 , 找到 识别 兴趣 点 意味 着 什么 ?你 要 寻找 能 划 定 物体 边界 的 点 , 或 图 像 中 包含 物体 的 中 
心 区 域 点 。 最 终 目 标 仍然 是 找 出 一 种 方法 ,用 于 找到 对 象 ， 并 用 可 比较 的 特征 表示 对 象 。 如 果 有 
两 幅 包 含 蝴蝶 的 图 像 ， 人 们 会 希望 它们 的 特征 都 包含 蝴蝶 这 个 信息 。 每 幅 图 像 通 常会 表示 为 一 个 
特征 癌 量 ， 即 一 些 特征 值 。 如 果 计 算 图 像 特征 癌 量 之 间 的 距离 ( 例如 余弦 距离 )， 那 么 包含 相同 
或 相似 对 象 的 图 像 之 间 的 距离 应 该 较 近 ( 具有 和 较 低 的 距离 值 )。 

典型 的 局 部 特征 类 型 包括 人 类 可 理解 的 视觉 特征 ， 比 如 边缘 和 和 角 。 但 是 在 实践 中 人 们 通常 会 
使 用 局 部 特征 提取 技术 ， 如 尺度 不 变 特 征 变 换 ( scale-invariant feature transform，SIFT ) 和 加 速 稳 
健 特 征 ( speeded-up robust feature，SUREF )。 


























SIFT 

找到 边缘 是 一 个 相对 简单 的 任务 ， 可 以 使 用 数学 工具 ， 如 傅 里 叶 变 换 ( Fourier transform )、 
拉 普 拉 斯 变换 (Laplace transform )， 或 加 博 变 换 ( Gabor transform ) 来 解决 。 相 比 之 下 ，SIFT 
和 SURF 算法 更 复杂 ， 但 也 更 强大 。 例 如 ，SIFT 可 以 用 于 识别 图 像 中 的 重要 区 域 ， 使 对 象 和 
同一 对 象 的 旋转 版 本 生成 相同 或 相似 的 局 部 特征 。 这 意味 着 ， 使 用 基于 SIFT 的 特征 ， 包 含 相 
同 旋转 对 象 的 图 像 可 以 被 识别 为 相似 的 。 

本 书 不 会 深入 研究 SIFT 的 细节 ， 因 为 这 不 是 本 书 关注 的 重点 。 但 简单 地 说 ， 它 使 用 了 一 
种 叫 作 高 斯 拉 普 拉 斯 ( Laplacian of Gaussian ) 的 过 滤器 ( filter ) 来 识别 图 像 中 的 识别 兴趣 点 。 
你 可 以 把 过 滤器 看 作 应 用 于 图 像 的 掩 腊 (mask )。 高 斯 拉 首 拉 斯 过 滤器 可 以 生成 一 幅 图 像 ， 其 
中 边缘 和 其 他 关键 点 被 高 之 显示 ,而 其 他 点 不 再 可 见 。 应 用 过 滤器 的 图 像 应 该 经 过 预 处 理 ， 以 
便 所 得 到 的 图 像 以 尺度 不 变 的 方式 表示 。 在 应 用 这 样 的 过 滤器 之 后 , 应 记录 每 个 识别 兴趣 点 的 
方向 ,使 识别 兴趣 点 的 方向 不 再 可 变 。 由 此 , 每 次 与 其 他 点 进行 比较 时 ， 方 向 部 分 会 被 集成 在 
每 个 计算 或 比较 操作 中 ,最 后 ,所 有 找到 的 局 部 特征 都 被 编码 在 一 个 单个 的 可 比较 的 描述 符 ( 特 
人 








局 部 特征 是 图 像 某 部 分 的 表示 。 单 幅 图 像 有 几 个 局 部 特征 。 但 你 需要 一 幅 图 像 的 单一 表示 ， 
以 便 达 成 如 下 目标 : 

口 最 后 的 图 像 表示 包含 所 有 局 部 识别 兴趣 点 ; 

口 可 以 在 查询 时 进行 有 效 比 较 (一 个 特征 癌 量 比 多 个 特征 问 量 更 便于 比较 )。 

要 做 到 这 一 点 ， 就 需要 将 局 部 特征 聚合 成 单个 表示 (特征 回 量 )。 一 种 常见 的 方法 是 使 用 视 
觉 词 袋 (bag-of-visual-words ，BOVAW ) 模型 来 聚集 局 部 特征 。 本 书 前 文 曾经 提 到 过 词 袋 模型 。 在 
这 样 的 模型 中 ,文档 被 表示 为 一 个 癌 量 ,其 大 小 等 于 所 有 现存 文档 中 单词 的 数量 。 癌 量 中 的 每 个 
位 置 都 绑 定 到 某 个 单词 。 如 采 该 值 为 1 (或 任何 大 于 0 的 值 ,例如 使 用 TF-IDF 计算 出 的 值 )， 则 
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相关 文档 包含 该 单词 ; 如 果 该 值 为 0， 则 相关 文档 不 包含 该 单词 。 
第 5 革 中 提 到 的 一 些 文档 的 词 代 表示 的 例子 如 表 8-1 所 示 。 


表 8-1 词 袋 表示 


词 项 bernhard bio dive hypothesis in influence into life mathematical riemann 
docl 1.28 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 1.28 
doc2 1.0 1.0 0.0 0.0 1.0 1.0 0.0 0.0 0.0 0.0 


在 BOVW 模型 中 ， 如 果 图 像 具 有 与 该 位 置 对 应 的 局 部 特征 ， 则 向 量 的 每 个 值 都 大 于 0。 
此 ,与 之 前 文本 例子 中 的 “bernhard” 或 “bio” 不 同 ，BOVW 模型 将 是 “局 部 特征 1 “局 部 特 
征 2” 等 。 每 幅 图 像 按 照相 同 的 原理 进行 表示 ,但 是 使 用 聚 类 后 的 局 部 特征 代 蔡 单词 ， 见 表 8-2。 


表 8-2 BOVW 模型 











特征 局 部 特征 1 局 部 特征 2 局 部 特征 3 局 部 特征 4 局 部 特征 5 
image 1 0.3 0.0 0.0 0.4 0.0 
Image 2 0.5 0.7 0.0 0.8 1.0 


如 果 使 用 局 部 特征 抽取 右 ( 如 SIFT )， 那么 每 幅 图 像 都 会 带 有 许多 描述 符 ， 这 些 摘 述 符 可 能 
会 根据 图 像 质量 、 图 像 大 小 和 其 他 因素 变化 。 

BOVW 模型 包含 一 个 额外 的 预 处 理 步 妊 ， 该 步骤 可 以 识别 固定 数量 的 局 部 特征 。 假 设 在 图 
像 数 据 集 中 ，SIFT 提取 每 幅 图 像 的 局 部 特征 。 但 是 ， 有 些 图 像 仪 有 数 十 个 特征 ， 而 其 他 一 些 图 
像 有 数 百 个 特征 。 为 了 创建 一 个 共享 的 局 部 特征 词汇 表 ， 所 有 的 局 部 特征 都 被 收集 在 一 起 ， 并 对 
其 执行 均值 (k-means ) 这 样 的 聚 类 算法 ， 提 取 7 个 质心 。 在 BOVW 模型 中 ， 质 心 是 词汇 。 

如 果 在 没有 云彩 的 夜晚 看 癌 天 空 ， 你 会 看 到 许多 星星 。 每 条 星星 可 以 被 认为 是 一 个 聚 类 点 
(cluster point )， 即 一 个 局 部 特征 。 现 在 想象 一 下 ， 星 星 越 明亮 ， 它们 周围 的 星星 就 越 多 (实际 上 ， 
星星 的 亮度 取 雇 于 距离 、 大 小 、 年 龄 、 放 射 性 和 其 他 因素 )。 在 这 些 条 件 下 ， 那 些 最 亮 的 星星 就 是 
星团 的 质心 。 你 可 以 用 星星 来 近似 地 代表 所 有 的 点 。 因 此 ， 需 要 考虑 的 不 是 数 十 亿 果 星星 〈 局 部 特 
征 )， 而 是 几 十 颗 或 几 百 颗 星 星 ， 即 被 虚线 圈 出 来 的 质心 。 这 就 是 聚 类 算法 的 工作 原理 ( 见 图 8-14 )。 
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现在 可 以 使 用 LIRE 了 , 并 用 BOVW 模型 创建 图 像 特征 癌 量 。 首 和 完 , 用 SIFT 提取 局 部 特征 ， 
并 用 均值 这 样 的 聚 类 算法 生成 视觉 词汇 表 。 
for (String imgPath : imgPaths) 


{ 
File file = new File(imgPath).; 
SiftExtractor siftExtractor = new 


SiftExtractor().; | 创建 一 个 基于 SIFT 算 
法 的 本 地 特征 提取 器 


BufferedIimage bufferedIimage = ImageIO 





< 一 在 全 部 图 像 上 达 代 


.read (file); 
读 取 图 if t (buff QI ) 
Da SifttExtractor.extrac uftferedIlimage);} 一 
像 内 容 在 给 定 图 像 上 执行 


SIFT 算法 





List<LocalFeature> localFfFeatures = siftExtractor 
提取 所 有 .getFeatures (); 
aa for (LocalFeature lf : localFeatures) { 
Tf kMeans.addFeature (lf.getFeatureVector()); 对 当前 图 像 将 所 有 SIFT 
} 特征 添加 为 点 , 以 便 进 行 
} 聚 类 
for (int k = 0; k < 15; k++) { 
kMeans.clusteringStep();} 
} 
Cluster[] clusters = kMeans.getClusters(); < 一 提取 生成 的 聚 类 
按 预 设 好 的 步 数 执行 
kk 均值 聚 类 


这 段 代 码 将 所 有 视觉 词汇 计算 为 固定 数量 的 聚 类 。 有 了 视 沉 词汇 表 , 就 可 以 将 每 幅 图 像 的 局 
部 特征 与 聚 类 质心 进行 比较 ， 计 算出 每 个 视觉 词 汇 的 最 终 值 。 此 任务 由 BOVW 模型 执行 ， 该 模 
型 可 以 计算 SIFT 特征 和 聚 类 质心 之 间 的 欧 几 里 得 距离 。 
far CoOtrine Timpoath .ss dmopathey. A < 一 在 所 有 图 像 上 再 次 和 迭 代 
File file = new File(imgPath); 
SiftExtractor siftExtractor = new SiftExtractor(),; 


BufferedIimage bufferedIimage ImageIO.read (file);} 
siftExtractor.extract (bufferedIimage).; 








List<LocalFeature> localFeatures = siftExtractor 
.getFeatures (); 

BOVW bovw = new BOVW(); 再 次 提取 SIFT 本 地 特征 。 每 
创建 BOVW Dov reatevectorRepresentatiorn (localreatures 幅 图 像 的 SIFT 特征 可 临时 
实例 大 记忆 时 下 和 Se 缓存 ， 避 免 重 复 计 算 

doublel[l] featureVector = bovw 

.getVectorRepresentation(); oe 给 定局 部 特征 和 质心 ， 计 算 
} 提取 特征 向 量 当前 图 像 的 单个 向 量 表示 











此 代码 为 你 能 在 图 像 搜索 中 使 用 的 每 幅 图 像 提供 一 个 单一 的 特征 向 量 表示 。 

在 示例 中 , 全 局 特征 提取 使 用 了 一 个 催 单 的 颜色 直方 图 提取 融 , 而 局 部 特征 提取 则 采用 SIFT 
和 BOVW 相 结合 的 方法 。 这 些 只 是 可 用 于 执行 显 式 特 征 提取 的 几 种 算法 的 一 部 分 。 例 如 ， 对 于 
全 局 特征 提取 ， 可 选 方案 还 包括 模糊 颜色 ( fuzzy-color ) 方法 ， 这 个 方法 更 灵活 一 点 。 对 于 局 部 
特征 提取 ， 还 有 SIFT 的 一 个 变种 SURF ( 前 面 提 到 过 )， 它 种 健 性 更 好 ， 速 度 通 第 也 更 快 。 
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颜色 下 方 图 特征 提取 各 的 主要 优点 在 于 它 的 体 单 性 和 直观 性 ,而 SIFT、SURF 和 其 他 局 部 特 
征 提 取 紫 的 主要 优点 是 ,它们 保持 下 度 不 变 和 旋转 不 变 , 并 在 识别 图 像 的 部 分 对 象 方面 表现 良好 。 
实际 中 , 生产 系统 需要 一 种 可 以 在 准确 率 、 速 度 、 工 程 量 和 维护 需求 方面 让 整个 系统 运行 恨 好 的 
方法 。 本 章 后 面 将 提 到 ,在 处 理 一 个 表示 图 像 的 固定 维度 特征 向 量 时 ,索引 和 搜索 打上 略 对 系统 运 
行 速度 有 很 大 影响 。 考 虑 到 工程 量 、 维 护 需求 和 准确 率 , 本 书 到 目前 为 止 所 讨论 的 全 局 特征 抽取 
信和 局 部 特征 抽取 带 虱 已 经 被 深度 学 习 染 构 超 越 。 重点 在 于 , 后 者 的 特征 不 是 人 工 提 取 的 ， 而 是 
通过 深度 神经 网 络 学 习 到 的 。 

8.4 市 将 介绍 深度 学 习 如 何 使 特征 提取 变 为 一 个 端 到 端的 、 从 像 系 到 特征 癌 量 的 简单 学 习 过 
程 。 从 对 视觉 对 象 语 义 的 理解 来 看 ， 这 种 由 深度 学习 生成 的 特性 通常 更 好 。 


8.4 ”图 像 表 示 的 深度 学 习 


到 目前 为 止 , 你 已 经 从 图 像 中 提取 了 特征 。 近 年 来 , 学 习 数 据 的 表示 方法 使 深度 学 习 大 获 成 
功 。 在 计算 机 视觉 领域 , 深度 学 习 第 一 次 胜 过 了 其 他 最 先进 的 方法 。 在 计算 机 视觉 中 ,计算 机 的 
任务 是 识别 图 像 或 视频 中 的 对 象 这 可 以 用 于 各 种 应 用 场景 , 包括 视网膜 扫描 、 违 革 获 驶 识别 ( 如 
识别 车 辆 违规 超车 和 光学 字符 识别 ， 等 等 。 这 项 技术 的 成 功 促使 深度 学 习 的 研究 人 员 和 工程 师 
研究 更 加 困难 的 项 目 ， 如 无 人 驾驶 汽车 。 

这 度 学 习 应 用 于 图 像 取得 了 一 些 若 名 的 结 琳 ， 其 中 包括 LeNet， 一 种 能 识别 手写 数字 和 机 天 
打印 数字 的 神经 网 络 ， 以 及 AlexNet, 一 种 能 识别 图 像 中 对 和 象 的 神经 网 络 。AlexNet 在 图 像 搜索 
场景 中 特别 有 意义 ， 因 为 它 能 够 根据 1000 个 非常 细 粒 度 的 不 同类 别 对 菏 幅 图 像 进行 分 类 ( 即 为 





















































其 分 配 一 个 类 别 )。 例 如 ， 它 可 以 区 分 长 相 非 第 相似 的 犬 是 否 属于 同一 犬 种 ， 如 图 8-15 所 示 。 
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图 8-15 用 AlexNet 分 类 的 大 的 图 像 


LeNet 和 AlexNet 都 使 用 一 种 特殊 的 前 馈 ( 人 工 ) 神经 网 络 ， 和 名 为 卷 积 神经 网 络 (CNN 或 
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ConvNet )。 近 年 来 ，CNN 不 仅 被 应 用 于 图 像 和 视频 ， 还 被 应 用 于 声音 和 文本 。 这 种 网 络 非常 灵 
活 ， 可 以 用 于 各 种 任务 。 

本 章 开 头 提 到 ， 人 们 可 以 使 用 深度 学 习 在 图 像 中 找到 越 来 越 抽 象 的 结构 。 人 研究 人 员 发 现 ， 这 
就 是 CNN 在 训练 阶段 所 做 的 。 随 着 层 数 的 增加 ， 靠 近 输入 的 层 会 学 习 边 缘 和 角 等 原始 特征 ， 而 
靠近 深度 神经 网 络 未 端的 层 会 学 习 表 示 形 状 和 对 象 的 特征 。 接 下 来 , 你 将 学 习 CNN 的 体系 结构 、 
训练 和 设置 CNN 的 方法 ， 以 及 如 何 提取 用 于 图 像 搜 索 的 特征 ( 如 图 8-16 白 : )。 

















索引 图 像 二 进 制 
内 容 和 特征 





图 8-16 ”使 用 由 神经 网 络 提 取 的 特征 索引 图 像 


8.4.1 卷 积 神经 网 络 


除去 名 称 ， 人 工 神经 网 络 和 人 脑 工 作 方式 之 间 没 有 明显 联系 。 大 多 数 稼 见 的 神经 网 络 有 一 个 
固定 的 结构 : 它们 的 神经 元 通常 是 完全 连接 的 。 而 大 脑 中 的 神经 元 却 没 有 这 样 固定 ( 且 简 单 ) 的 
结构 。CNN 最 初 受 到 人 脑 视 觉 皮层 的 工作 原理 启发 一 一 专用 细胞 负责 图 像 的 某 些 部 分 ， 然 后 将 
言 县 传递 给 其 他 细胞 ， 而 后 者 以 与 CNN 相似 的 流程 《就 如 你 将 看 到 的 ) 精心 阐释 信息 。CNN 与 
其 他 类 型 的 神经 网 络 在 工作 方式 上 的 一 个 根本 区 别 是 前 者 不 处 理 平面 信号 ( flat signal ) 输入 ( 例 
如 稠密 向 量 、 一 位 有 效 编码 向 量 )。 

之 前 为 图 像 创 建 颜色 直方 图 时 ， 本 章 提 到 图 像 通常 使 用 RGB 表示 : 单个 像 系 由 红色 、 绿 色 
和 蓝 色 3 个 通道 的 不 同 的 值 来 描述 。 如 末 将 其 扩展 到 具有 许多 不 同 像 系 的 整 幅 图 像 ， 则 会 有 一 个 
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宽度 为 x、 高 度 为 y 的 图 像 表 示 。 该 图 像 表 示 由 3 个 不 同 的 矩阵 组 成 , 分 别 对 应 3 个 RGB 组 件 ( 
一 个 组 件 具 有 y 行 和 x 列 ), 例如 , 3x3 像素 大 小 的 图 像 将 有 3 个 和 矩阵, 每 个 矩阵 有 9 个 值 。R:31、 
G:39 和 B:201 的 RGB 代码 将 生成 图 8-17 所 示 的 颜色 。 











G I39_ 
B |201 


图 8-17 示例 RGB 像素 值 


如 果 将 这 样 的 值 放 在 3 像素 x 3 像素 大 小 的 图 像 第 二 行 的 第 一 个 元 素 中 , 则 RGB 和 矩阵 可 能 如 
表 8-3~ 表 8-5 所 示 ( 粗 体 值 表示 图 8-17 中 的 像素 )。 


表 8-3 红色 通道 


0 4 0 
31 8 3 
1 12 39 


表 8-4 监 色 通道 


10 40 31 
39 0 0 
87 101 18 


表 8-5 绿色 通道 


3) 46 1 
201 8 53 
0 0 10 





与 单词 或 字符 癌 量 的 单一 矩阵 不 同 , 神经 网 络 需 要 为 每 个 输入 图 像 处 理 3 个 矩阵 : 每 个 颜色 
通道 一 个 。 如 果 用 传统 的 前 馈 、 全 连接 神经 网 络 处 理 图 像 ， 那么 将 造成 严重 的 性 能 问题 。 尺 寸 为 
100 x 100 的 非常 小 的 图 像 ， 仅 第 一 层 就 需要 100 x 100 x 3=30 000 个 可 学 习 权重 ; 而 中 等 大 小 的 
图 像 (1024 x 768 ) 第 一 层 需 要 超过 2 000 000 个 参数 ( 1024 x 768 x 3=2 359 296 )! 

CNN 在 大 输入 上 进行 训练 ， 并 在 各 层 和 神经 元 连接 上 采用 轻 量 级 设计 ， 由 此 解决 了 难题 。 
连接 更 少 意 味 痢 网 络 需 要 学 习 的 权重 更 少 。 而 权重 更 少 使 学 习 的 计算 复杂 度 更 低 ， 速 度 也 更 快 。 8 
本 层 的 所 有 神经 元 并 非 都 与 前 一 层 中 的 神经 元 相连 。 这 些 神经 元 有 一 个 在 一 定 程 度 上 可 配置 大 小 
的 接收 域 (receptive field )。 接 收 域 定 义 了 神经 元 所 连接 的 输入 矩阵 的 局 部 区 域 。 一 些 神经 元 没 
有 连接 到 整个 输入 区 域 ， 因 此 没有 附加 的 权重 。 这 些 层 被 称 为 卷 积 层 ( convolutional layer )， 是 
CNN 的 主要 组 成 部 分 [ 池 化 层 ( pooling layer ) 也 是 |， 如 图 8-18 所 示 。 
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输入 层 卷 积 层 池 化 层 全 连接 层 输出 层 





图 8-18 ”CNN 的 构成 ( 和 数据 流 ) 
在 简要 介绍 SIFT 特征 提取 需 时 ， 本 章 提 到 了 高 斯 拉 普 拉 斯 (LoG ) 过 滤 需 。 它 可 以 识别 图 
像 中 的 识别 兴趣 点 。 卷 积 层 也 有 同样 的 职责 ， 但 是 与 固定 的 LoG 过 滤 硕 相 比 ， 卷 积 过 滤 带 是 在 
网 络 训练 阶段 习 得 ， 以 在 最 大 程度 上 适应 训练 集中 的 图 像 ( 见 图 8-19 )。 























输出 体 





色 8-19 卷 积 云 
卷 积 层 的 深 上 度 可 配置 (在 图 8-19 中 为 4), 它 还 有 符 干 过 滤 关 和 一 些 其 他 配置 超 参 数 ( hyper 








parameters )。 该 层 的 过 滤 需 包含 网 络 在 训练 期 间 通 过 反 回 传播 学 习 到 的 参数 ( 权重 )。 过 滤 郁 可 
以 被 看 作 整 幅 图 像 上 的 小 窗口 ， 它 可 以 更 改 当 前 “看 到 ”的 输入 像素 ,还 可 以 在 整 幅 图 像 上 滑 
动 ， 以 应 用 于 所 有 输入 值 。 这 种 滑动 滤波 是 一 种 卷 积 运算 ， 这 就 是 这 种 类 型 的 层 ( 和 网 络 ) 名 
字 的 来 由 。 

一 个 5x5 的 过 滤 需 有 25 个 权重 ， 所 以 它 一 次 可 以 看 到 25 个 像素 。 从 数学 上 讲 ， 过 滤 需 可 
以 计算 像素 的 25 个 值 和 过 滤 需 的 25 个 权重 之 间 的 点 积 。 假 设 卷 积 层 接 收 一 个 100 x 100 x 3 的 输 
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入 图 像 [ 因为 它 有 3 个 维度 ， 所 以 也 叫 输入 体 〈input volume ) |， 如 果 该 层 有 10 个 过 滤 硕 ， 则 
输出 体 值 为 100 x 100 x 10。 生 成 的 10 个 100 x 100 和 矩阵 (每 个 过 滤器 1 个 ) 称 为 激活 映射 
(activation map )。 

当 过 滤 右 在 输入 值 上 滑动 时 ， 它 通常 一 次 滑动 一 个 值 ( 像 系 )。 但 有 时 ， 过 滤 怖 可 以 一 次 请 
动 两 个 或 三 个 值 ( 例 如， 在 宽度 轴 上 )， 以 减少 生成 输出 的 数量 。 这 个 关于 滑动 大 小 的 参数 通 第 
被 称 为 步 长 ( stride )。 一 次 滑动 一 个 值 的 步 长 为 1; 一 次 滑动 两 个 值 的 步 长 为 2; 以 此 类 推 。 

CNN 还 通过 控制 要 学 习 的 权重 数量 来 减少 大 输入 体 训 练 的 计算 负担 。 想 象 一 下 图 8-19 中 的 
所 有 神经 元 都 有 一 是 的 次 度 〈 例 如 ， 闪 度 =2 )。 然 后 ， 它 们 将 分 享 同样 的 权重 。 这 种 技术 称 为 参 
数 共 享 (parameter sharing )。 

最 后 , 卷 积 层 与 正常 全 连接 神经 网 络 层 的 主要 区 别 在 于 , 卷 积 神经 元 只 连接 到 输入 的 局 部 区 
域 ,日 卷 积 层 中 的 一 些 神经 元 共享 参数 。 


1. 闻 化 层 

池 化 层 的 职责 是 降低 对 输入 体 的 采样 ， 即 在 保留 最 重要 信息 的 同时 减少 输入 大 小 。 这 样 做 的 
优点 是 减少 了 计算 复杂 度 和 后 续 层 ( 例如 ， 其 他 卷 积 层 ) 要 学 习 的 参数 的 数量 。 池 化 层 与 要 学 习 
的 权重 没有 关联 ,它们 查看 输入 体 的 一 部 分 , 并 根据 选择 的 困 数 提取 一 个 或 多 个 值 。 凋 用 另 数 有 
max 和 average。 

与 卷 积 层 一 样 ， 池 化 层 的 接收 域 大 小 和 步 长 可 配置 。 例 如 ， 接 收 域 大 小 为 2、 步 长 为 2 日 具 
有 max 困 数 的 池 化 层 将 从 输入 体 中 获取 4 个 值 ， 并 从 这 些 输入 值 中 输出 最 大 值 。 


2. CNN 训练 

本 章 已 经 介绍 了 CNN 的 主要 组 成 部 分 ,现在 把 它们 车 加 在 一 起 , 创建 一 个 实际 的 CNN, 并 
看 看 如 何 训练 这 样 的 网 络 。 记 住 ， 主 要 目标 在 于 提取 特征 向 量 ， 而 这 些 特征 向 量 能 捕捉 语义 上 的 
图 像 相似 概念 。 

典型 的 CNN 结构 通常 至 少 包含 一 个 (或 多 个 ) 卷 积 层 ， 以 及 如 下 组 成 部 分 : 

口 一 个 密集 的 、 完 全 连接 的 层 ， 用 于 保存 图 像 的 特征 癌 量 ; 

口 一 个 输出 层 ， 包 含 图 像 可 以 被 标 为 的 所 有 类 的 分 数 。 

CNN 通常 是 以 有 监督 的 方式 进行 训练 的 ， 训 练 样本 的 输入 是 一 幅 图 像 ， 而 预期 输出 是 图 像 
所 属 的 一 组 类 。 

现在 来 看 看 一 个 已 知 数据 集 。 它 在 计算 机 视觉 研究 中 被 大 量 使 用 。CIFAR 数据 集 包 含 数 千 幅 
图 像 ， 而 这 些 图 像 被 标记 为 10 个 类 别 ( 见 图 8-20 ),。 来 自 CIFAR 数据 集 的 图 像 是 彩色 的 ， 每 幅 
图 像 尺 寸 都 是 32 x 32 (非常 小 )。 因 此 ， 第 一 层 将 接收 32 x 32 x 3 = 3072 个 值 的 输入 。 
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图 8-20 来 自 CIFAR 数据 集 的 一 些 示 例 


创建 一 个 包含 两 个 卷 积 层 及 池 化 层 、 一 个 密集 层 和 一 个 输出 层 的 简单 CNN ( 见 图 8-21 )。 你 
期 望 网 络 生成 输入 图 像 属 于 10 个 类 别 中 任何 一 个 类 别 的 可 能 性 估计 。 图 8-22 显示 了 一 些 示 例 输 
出 (该 图 像 是 使 用 ConvNetJs CIFAR-10 演示 生成 的 )。 


介入 卷 积 层 1 池 化 层 1 卷 积 层 2 ” 池 化 层 2 隐藏 层 4 全 出 





Automobile 
















Truck 








图 8-21 有 两 个 卷 积 层 及 池 化 层 的 简单 CNN 
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图 8-22 ”用 CIFAR 数据 集 测试 CNN 


如 你 所 见 ， 在 CNN 训练 期 间 ， 没 有 与 特征 相关 的 工作 被 执行 ， 特 征 回 量 可 以 从 最 终 密 集 层 
应 到 闯 地 流出 。 你 “仅仅 ”需要 很 多 带 标 签 的 图 片 ! 

这 个 染 构 是 CNN 的 一 个 人 简 蛙 例子 。 它 的 基本 设计 及 许多 超 参 数 还 有 很 大 的 提升 空间 。 例如 ， 
增加 卷 积 层 已 经 被 证 明 可 以 提高 精度 。 接收 域 的 大 小 、 卷 积 层 的 深度 或 池 化 操作 ( max、average 
等 ) 都 可 以 被 调整 改进 ， 以 提高 准确 率 。 


3. 用 DL4J 配置 CNN 
上 一 市 中 的 CNN 可 以 很 容易 地 在 DL4J 中 实现 。DL4J 附 宙 了 一 个 实用 类 ,用 于 在 CIFAR 数 
据 集 上 迭代 和 训练 ， 因 此 下 面 使 用 它 来 训练 CNN， 如 代码 清单 8-1 所 示 。 


代码 清单 8-1 在 DL4J 中 为 CIFAR 配置 CNN 
int height = 32; ”< 一 输入 图 像 高 度 
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int width = 32; < 输入 图 像 宽度 


int channels = 3;，; < 一 使 用 的 图 像 通道 的 数量 


] 1] = 50000;，; 于 
人 从 CIFAR 数据 集中 提取 的 
大 小 ee batchsize = 100; 训练 样本 数量 


int epochs = 10; < 一 训练 轮 数 

MultiLayerNetwork model = getSimpleCifarCNN(); 设置 网 络 

CifarDataSetIiterator dsi = new CifarDataSetIterator!l 翅 煌 | 
不 


batchSize, numSamples, new int[] {height, width, 


channels}, false, true); 3 
上 创建 迭代 器 


for (int i = 0; i < epochs; ++i) { 
model .fit(dsi); < 一 一 一 一 一 一 训练 网 络 
} 
cf.saveModel (model, "simpleCifarModel.json"); < 一 为 后 续 使 用 保存 模型 


模型 架构 由 getsimpleCIFARCNN 方法 定义 ， 如 代码 清单 8-2 及 图 8-23 所 示 。 
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图 8-23 ”来自 DL4J UI 的 结果 模型 


代码 清单 8-2 ”配置 CNN 
public MultiLayerNetwork getSimpleCifarCNN() { 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.1]ist() 
.layer(0, new ConvolutionLayer.Builder ( 
new int[]{4, 4}, new int[]{1, 1}, 
new int[]{0, 0}) .name ("cnnl") 
.ConvolutionMode (ConvolutionMode.Same) 
首 个 卷 .nNnIn(3) .nOut (64) .weightInit (WeightInit .XAVIER UNIFORM) .activation( 
积 层 Activation.RELU) 


.layer(1, new SubsamplingLayer.Builder ( 
PoolingType.MAX, new int[]{2,2}) 
-name limaxieoll 下 站 二 让 三 (六 < 首 个 池 化 层 
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.layer(2, new ConvolutionLayer.Builder ( 
new int[]{4,4}, new int[] {1,1}, 
new int[]{0,0}) .name ("cnn2") 
.ConvolutionMode (ConvolutionMode.Same) 
第 二 个 .NnOut (96) .weightInit (WeightInit.XAVIER UNIFORM) 
卷 积 层 .activation (Activation.RELU) .builada()) 


.layer(3, new SubsamplingLayer.Builder ( 
PoolingType.MAX, new int[]{2,2}) .namel( 
"maxpool12") .build()) < 一 一 一 一 一 一 一 第 二 个 池 化 层 





.layer(4, new DenseLayer.Builder() .name ( 


"ffn1") .nout(1024) .build()) 
密集 层 (从 这 里 可 
输出 层 | . layer(5, new OutputLayer.Builder (LossFunctions 以 提取 特征 ) 


.LOSSFUNCtion.NEGATIVELOGLIKELIHOOD) 





.name ("output") .nOut (numLabels) .activation(Activation.SOFTMAX) .build()) 
.backprop (true) .pretrain (false) 


.SetInputType (InputType.convolutional (height, width, channels)) 
BULLG(); 


MultiLayerNetwork model = new MultiLayerNetwork (Conf) ; 
model.init(); 
return model; 


} 


一 旦 CNN 完成 了 训练 ， 你 就 可 以 使 用 网 络 输出 了 。 

回想 一 下 颜色 和 下方 图 或 BOVW 模型 ， 这 两 种 方法 可 以 使 每 幅 图 像 获 得 一 个 特征 问 量 。CNN 
能 提供 的 却 不 止 如 此 : 徘 近 输出 层 的 密集 层 包 含 特征 问 量 ， 可 以 用 来 比较 图 像 ; 训练 过 的 CNN 
可 以 用 来 标记 新 的 网 像 。 

训练 结束 后 ,如 有 果 要 用 卷 积 神经 网 络 为 从 每 幅 图 像 学 习 到 的 特征 癌 量 建立 索引 , 就 必须 在 图 
像 数 据 集 上 再 次 迭代 ， 对 每 幅 图 像 执 行 前 馈 计算 ， 并 提取 由 CNN 生成 的 特征 回 量 ， 如 代码 清单 
8-3 所 示 。 


代码 清单 8-3 ”提取 特征 癌 量 











获取 要 处 理 的 图 像 
的 迭代 器 
DataSetIterator iterator = ... 
while (iterator.hasNext ()) { < 在 数据 集 上 迭代 
DataSet batch = iterator.next (batchSize); < 一 在 每 一 批 次 上 和 迭代 





for (int k = 0; k < batchSize; k++) { 


DataSet dataSet = batch.get (k); | 在 当前 批 次 上 迭代 
每 幅 图 像 


List<INDArray> activations = model. 
feedForward (dataSet .getFeatureMatrix(), 
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{alse 不 用 训练 ， 在 当前 图 像 上 《以 像 
素 作 为 输入 ) 执行 一 个 前 向 反馈 
INDArray imageRepresentation = activations 传递 


.get (activations.size() - 2); 
在 最 终 的 输出 层 前 , 提取 
INDAPLaY .CTSelT fiedtion es Setlivat Tions. deEr 存储 在 密集 层 中 的 图 像 


表示 


activations.size() - 1);， 
。 。。 卜 \ 
人 对 当前 图 像 提取 各 分 类 
的 类 别 分 数 


现在 你 已 经 准备 好 学 习 如 何 高 效 地 索引 和 搜索 由 CNN 提取 的 特征 向 量 ( 这 通常 适用 于 任何 
和 尾 征 癌 量 )。 


8.4.2 图像 搜索 


回 到 本 章 开 头 的 例子 : 傅 助 一 张 用 智能 手机 拍摄 的 照片 ,你 希望 找到 一 张 专业 水 准 的 照搬 作 
为 礼品 卡 使 用 。 你 需要 执行 以 下 操作 : 

(1) 将 图 像 输 入 CNN; 

(2) 提取 生成 的 特征 癌 量 ; 

(3) 使 用 特征 向 量 进行 查询 ， 在 搜索 引擎 中 找到 相似 的 图 像 。 

8.4.1 市 介 绍 了 如 何 执 行 前 两 个 步 怠 。 本 市 将 介绍 如 何 有 效 地 执行 查询 。 

显而易见 , 执行 查询 的 一 种 方法 是 , 在 输入 图 像 特征 向 量 和 搜索 引擎 中 的 所 有 图 像 的 特征 问 
量 之 间 进 行 比较 。 想 象 一 下 ， 如 8.4.1 市 所 述 ， 从 CNN 中 提取 特征 向 量 , 然后 将 它们 放 在 一 张 图 
上 ,表示 相似 图 像 的 点 会 彼此 接近 。 这 与 之 前 处 理 词 艇 入 和 文档 航 入 的 思路 相同 。 因 此 ,可 以 计 
算 输 入 图 像 的 特征 问 量 与 所 有 其 他 图 像 的 特征 回 量 之 间 的 距离 , 并 返回 具有 最 小 特征 回 量 距离 的 
图 像 ， 例 如 前 10 幅 。 从 计算 的 角度 来 看 ， 这 种 方法 不 具有 伸缩 性 ， 因 为 执行 查询 所 需 的 时 间 会 
随 着 搜索 引擎 中 图 像 数 量 的 增多 而 线性 增长 。 在 现实 中 , 这 类 最 近邻 算法 得 到 的 结果 通常 是 近似 
的 : 它们 表现 好 , 但 准确 率 有 损失 。 这 种 近似 最 近邻 搜索 算法 返回 的 图 像 可 能 不 是 与 输入 图 像 最 
接近 的 ， 但 是 它 能 够 较 快 返回 近邻 。 

在 Lucene 中 2 你 可 以 使 用 ( 实验 性 的 ) FloatPointNearestNeighbor 2 该 类 提供 接近 
最 近邻 遇 数 。 或 者 ， 你 也 可 以 使 用 局 部 敏感 散 列 ( locality-sensitive hashing，LSH ) 实现 接近 最 近 
邻 搜索 。FloatPointNearestNeighbor 在 搜索 时 花 销 更 大 ， 但 是 在 索引 上 没有 额外 的 空间 占 
用 ; 而 LSH 增加 了 索引 的 大 小 ， 因 为 它 要 存储 的 不 仅仅 是 特征 回 量 ， 但 它 在 搜索 时 很 快 。 后 文 


将 先 介绍 FloatPointNearestNeighbor 类 ， 然 后 介绍 LSH。 






































se 


使 用 FloatPointNearestNeighbor 

要 使 用 FloatPointNearestNeighbor， 就 需要 提取 CNN 特征 癌 量 ， 并 将 它们 作为 点 在 
Lucene 中 索引 。 最 新 的 Lucene 版 本 支持 基于 维 树 算法 的 n 维 点 (为 一 种 查看 癌 量 的 方法 )。 
此 ， 从 CNN 提取 的 特征 向 量 由 一 个 名 为 Float Point( 浮 点 数 ) 的 专用 字段 类 型 进行 索引 ， 如 
代码 清单 8-4 所 示 。 
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代码 清单 8-4 ”特征 向量 作为 一 个 浮 点 数 被 索引 
List<INDArray> activations = cnnModel.feedForward (currentIimage, false); 
INDArray imageRepresentation = activations 


.get (activations.size() - 2); ee 
float[] aFloat = imageRepresentation.data() 获 奴 nD 生成 的 
特征 向 量 








.asFloat (); 
doc.add (new FloatPoint ("features", floats)).; 特征 向 量 作 为 一 个 Lucene 
转换 成 浮 点 浮 点 数 被 索引 
数组 


遗憾 的 是 ， 从 Lucene 7 开始 ，FloatPoint 可 以 索引 的 点 维度 最 多 为 8， 而 特征 癌 量 通常 要 
比 这 大 得 多 。 例 如 , 示例 中 CIFAR 的 CNN 生成 的 特征 回 量 的 维 数 是 1024。 你 需要 将 用 于 实例 化 
FloatPoint 的 fl1oat1] 从 1024 个 值 减少 到 最 多 8 个 值 。 

你 可 以 尝试 在 保留 最 重要 信息 的 同时 减少 辣 量 的 维 数 ,， 这 种 技术 也 称 为 降 维 ( dimensionality 
reduction )。 降 维 算法 有 很 多 种 ， 本 章 将 介绍 一 种 可 以 在 其 他 场景 中 重用 的 算法 。 

主 成 分 分 析 (principal component analysis，PCA ) 是 一 种 稼 用 的 降 维 算法 。 顾 名 思 义 ，PCA 
从 一 个 特征 问 量 集中 识别 出 最 重要 的 特征 ， 并 丢弃 其 他 特征 。 每 个 从 CNN 中 提取 的 特征 癌 量 有 
1024 个 值 ， 要 使 用 PCA 将 每 个 特征 向 量 的 1024 个 值 融 合 为 最 多 8 个 值 。PCA 可 以 将 图 上 具有 
1024 个 坐标 的 点 〈 回 量 ) 转换 为 图 上 具有 8 个 坐标 的 点 ( 问 量 )。 

直观 地 说 ，PCA 算法 遍历 每 个 向 量 中 每 个 特征 的 值 ， 找 出 值 相差 最 大 ( 方差 最 大 ) 的 特征 。 
这 些 特征 被 认为 是 最 重要 的 。 PCA 并 没有 丢弃 其 他 特征 ， 相 反 ， 它 会 从 中 构建 新 的 特征 ， 以 避免 
丢失 信息 。 方 差 最 大 的 特征 在 构建 新 特征 时 具有 更 大 的 权重 。PCA 将 CNN 提取 的 大 小 为 1024 
个 值 的 特征 癌 量 组 合成 8 个 新 特征 ， 这 样 你 就 可 以 将 每 个 特征 癌 量 作为 Lucene 点 进行 索引 。 

PCA 可 以 通过 几 种 方式 实现 。 因 为 要 处 理 的 是 向 量 , 所 以 可 以 将 它们 放 入 一 个 大 和 矩阵 中 , 并 
使 用 和 矩阵 分 解 算 法 ， 例 如 非 钠 矩阵 分 解 、 截 断 奇 异 值 分 解 等 。 因 为 本 章 关 注 的 是 特征 问 量 索 引 ， 
所 以 不 会 详细 介绍 这 种 PCA 算法 的 工作 原理 ， 而 这 也 不 在 本 书 的 讨论 范围 内 。DL4J 提供 了 实现 
PCA 的 工具 ， 后 文 将 使 用 它们 。 

CIFAR 有 大 约 50 000 个 1024 维 的 图 像 ， 因 此 你 会 有 一 个 包含 50 000 行 〈 特征 回 量 的 数目 ) 
和 1024 列 ( 特征 向 量 的 维 数 ) 的 巨大 矩阵。 你 需要 把 它 简 化 成 50 000 x 8 的 矩阵 ， 如 代码 清单 
8-5 所 未 。 
代码 清单 8-5 ”建立 图 像 特征 癌 量 矩阵 


CifarDataSetIiterator iterator ... 




















INDArray weights = Nd4j.zeros(50000，1024); < 一 创建 权重 矩阵 
while (iterator.hasNext()) { 
DataSet batch = iterator.next (batchSize),; 在 全 部 (CIFAR) 
for (int k = 0; k < batchSize; k++) { 数据 集 上 迭代 


DataSet dataSet = batch.get (k).; 
List<INDArray> activations = model 
.feedForward (dataSet .getFeatureMatrix(), 














falge); 4 在 CNN 上 执行 前 向 反馈 
INDArray imageRepresentation = activations 
.get (activations.size() - 2);， < 一 
从 密集 层 提取 





特征 向 量 
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float[] aFloat = imageRepresentation.data() .asFloat(),; 
weights.putRow(idx, Nd4]j.create(aFloat)),; 
} / 
) 将 特征 向 量 存 储 在 
权重 矩阵 中 


在 整个 特征 向 量 和 矩阵 构建 好 后 ， 你 可 以 运行 PCA 并 获得 足够 小 的 向 量 ， 使 其 在 Lucene 中 可 
以 作为 FloatPoints 被 索引 。 注 意 ， 由 于 这 个 矩阵 太 大 ，PCA 可 能 需要 一 段 时 间 ( 例如， 在 现 
代笔 记 本 计算 机 上 需要 几 分 钟 ) 才能 完成 ， 如 代码 清单 8-6 所 示 。 
代码 清单 8-6 回 量 维度 减少 到 8 


i 目标 向 量 大 小 


INDArray reduced = PCA.pca (weights, d, true),; 
在 权重 和 矩阵 上 
执行 PCA 


尽管 这 应 该 很 有 效 ， 但 是 你 可 以 进一步 借鉴 Simple and Effective Dimensionality Reduction for 
Word Embeddings" 一 文中 压缩 词 租 入 的 技术 ， 并 将 其 用 于 图 像 向 量 ， 以 生成 更 小 、 质 量 更 好 的 特 
征 向 量 。 该 技术 基于 PCA 和 后 处 理 算 法 ,， 它 将 两 者 相 结合 来 突出 通信 的 哪些 特征 比 其 他 特征 “更 
织 ”。 蝎 强 舱 入 的 后 处 理 算法 在 论文 “All-but-the-Top 一 Simple and Effective Postprocessing for Word 
Representations”“ 中 有 描述 。 你 可 以 在 DL4J 中 实现 后 人 处理， 如 代码 清单 8-7 所 示 。 


代码 清单 8-7 ”更 强 通 入 的 后 处 理 


在 权重 矩阵 中 从 每 在 结果 权重 矩阵 上 
个 散 入 移 除 均值 执行 PCA 
private INDArray postProcess (INDArray weights, int d) f{ 
INDArray meanWeights = weights.sub (weights.meanNumber());} 
INDArray pca = PCA.pca (meanWeights, d, true); 




















FO (Tht 可 有 07 可 放 WeELOhte: BOwe (yy 可 FE) 加 重 每 个 向 量 
INDArray V = meanWeights.getRow(]J).; 2 
for (int s = 0; s <d; s++) 1{ 的 特定 值 
INDArray U = pca.getColumn(s); 
INDArray mul = u.mmul (Vv) .transpose() .mmul (u); 
V.SUub1i (mul.transpose()).; 减 去 每 个 向 量 
| 的 主 成 分 什 


} 
return weights; < 一 一 一 返回 修改 后 的 权重 矩阵 
} 


针对 这 个 髋 入 降 维 的 改进 版 本 ， 整 个 算法 在 权重 矩阵 上 执行 后 处 理 ， 然 后 执行 PCA， 最 后 
在 减少 权重 后 的 矩阵 上 执行 后 处 理 ， 如 代码 清单 8-8 所 示 。 


代码 清单 8-8 使 用 通 入 后 处 理 降 维 








int d = 8; 
INDArray X = postProcess (weights, qd); | 原始 特征 向 量 值 后 
一 = 处 理 
(作者 为 Vikas Raunak。 


@) 作者 为 Jaqi Mu、Suma Bhat 和 Pramod Viswanath。 
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降 维 后 的 特征 向 量 值 
后 处 理 


现在 可 以 在 权重 和 矩阵 上 壕 代 ， 并 在 Lucene 中 将 每 一 行 作为 FloatPoint 索引 ， 如 代码 清单 
8-9 所 示 。 


代码 清单 8-9 索引 特征 向 量 


INDArray pcaX = PCA.Pca (人 d, true) 
执行 PCA 得 到 8 
INDArray reduced = postProcess (pcax, sna 维特 征 向 量 








IndexWriter writer = new IndexWriter (directory, config); < 创建 一 个 Indexwriter 
for (int k = 0; k < reduced.rows(); k++) { 在 降 维 后 的 权重 矩 
Document doc = new Document ( ) ; 阵 行 上 迁 代 
加 站 区 addlinew FLOaEDointt"teaturee, .reduced .Uetow(k) 向 量 作为 FloatPoint 
.toFloatVector())).; 索引 
doc.add (new TextField("label", ..., Field.Store.YES)).: 
; 索引 与 当前 向 量 
writer.addDocument (doc); < 二 一 索引 文档 相关 的 标签 
} 
writer.commit ( ) ， 二 一 提交 更 改 











现在 你 已 经 通过 图 像 的 特征 癌 量 对 图 像 进行 了 索引 , 可 以 通过 示例 图 像 进行 查询 , 并 在 搜索 
引擎 中 找到 最 相似 的 图 像 。 因 此 ， 如 果 要 运行 一 些 测试 ， 可 以 随机 获取 一 个 被 索引 过 的 图 像 ， 提 
取 其 特征 向 量 ， 然 后 使 用 Float PointNearestNeighbor 类 执行 搜索 ， 如 代码 清单 8-10 所 示 。 


代码 清单 8-10 ”最 近邻 搜索 


获取 与 随机 生成 的 提取 输入 图 像 特征 , 执行 最 近邻 

ID 相关 联 的 文档 搜索 ， 返 回 最 前 的 3 个 结果 
int rowId = random.nextInt (reader.numDocs());} 
Document document = reader.document (rowId);} 
TopFieldDocs docs = FloatPointNearestNeighbor.nearest (searcher., 
"features", 3, reduced.getRow (rowId) .toFloatVector()); 














ScoreDoc [] ScoreDocs = docs.scoreDocs; 

System.out .printin("gquery image of a : " + document .get ("label")); 

for (ScoreDoc sd : scoreDocs) { 了 一 一 一 一 一 一 一 一 一 在 搜索 结果 上 适 代 
System.out .println("-->" + sd.doc + " : "+ 
reader.document (sd.doc) .getField("label") .stringValue()); 

} 

例如 ， 你 希望 dog 的 图 像 的 最 近邻 也 被 标记 为 daog。 下 面 是 一 些 示 例 输出 。 8 

query image of a : dog 

--> 67 : dog 


--> 644 : dog 
--> 101 : cat 
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Guery image of a : automobile 
--> 2 : automobile 

--> 578 : automobile 
= 


query image of a : deer 
--> 124 : deer 
--> 713 : dog 
--> 838 : deer 


query image of a : airplane 
--> 412 : airplane 

--> 370 : airplane 

-Sy 39 Snip 


query image of a : cat 


--> 16 : cat 
--> 854 : cat 
--> 71 : cat 


你 已 经 完成 了 从 提取 特征 到 索引 ,最 后 搜索 图 像 的 流程 。 本 届 之 前 提 到 ， 可 以 采用 一 种 被 称 
为 局 部 敏感 散 列 的 算法 来 提高 搜索 性 能 。8.4.3 市 将 介绍 这 种 算法 ， 及 其 在 Lucene 中 的 一 种 可 能 
实现 。 


8.4.3 局 部 敏感 散 列 


最 近邻 算法 最 简单 的 实现 方法 是 遍历 搜索 引擎 中 的 所 有 几 像 ， 并 将 输入 图 像 特征 回 量 与 每 
个 索引 图 像 特征 辐 量 进行 比较 ， 仅 保留 上 最 近邻 的 图 像 。 这 些 图 像 就 是 最 接近 输入 的 搜索 结 
这 是 8.4.2 节 介 绍 的 。 

回想 一 下 前 文中 关于 星星 和 聚 类 的 例子 。 如 果 在 一 个 网 上 绘制 图 像 特 征 回 量 并 应 用 聚 类 算 
法 ， 就 会 得 到 聚 类 和 质心 。 每 幅 岁 像 都 属于 一 个 聚 类 ， 并 且 每 个 聚 类 都 有 一 个 质心 ， 这 个 质心 就 
是 聚 类 的 中 心 。 不 必 将 输入 图 像 的 特征 癌 量 与 所 有 图 像 的 特征 癌 量 进行 比较 , 只 需 将 它们 与 质心 
的 特征 问 量 进行 比较 。 肾 类 的 数量 通常 比 点 ( 问 量 ) 的 数量 少 得 多 , 因此 这 可 以 加 快 比较 的 速度 。 
找到 最 近 的 聚 类 后 , 可 以 决定 是 停止 并 将 属于 该 聚 类 的 所 有 其 他 回 量 作为 最 近邻 , 还 是 对 属于 最 
近 聚 类 的 其 他 特征 回 量 进 行 第 二 轮 最 近邻 搜索 。 

这 个 基本 思想 可 以 以 多 种 方式 实现 。 当 然 , 你 可 以 在 特征 癌 量 上 运行 均值 聚 类 算法 ， 并 使 
用 特殊 标签 索引 质心 例如， 添加 仅 质 心 才 有 的 专用 字段 )， 以 全 在 搜索 期 间 执行 初始 查询 获取 
质心 。 在 质心 可 用 的 情况 下 ， 可 以 执行 一 次 或 两 次 精确 的 或 近似 的 最 近邻 算法 ( 首先 在 质心 上 执 
行 ， 然 后 在 最 近 的 聚 类 点 上 执行 )。 

这 里 有 一 个 问题 ,， 那 就 是 你 需要 维护 一 个 聚 类 并 保持 其 不 断 更 新 。 当 新 网 像 被 索引 时 ， 聚 类 
和 质心 可 能 会 改变 。 这 可 能 需要 你 多 次 运行 聚 类 算法 。 索 引 小 回 量 所 需 的 降 维 算法 也 是 如 此 。 

一 个 轻 量 级 的 好 方法 是 , 使 用 散 列 国 数 和 散 列 表 来 查找 近邻 重复 。 散 列 另 数 只 是 确定 性 函数 
的 一 种 ， 它 将 一 个 输入 转换 为 确定 的 输出 〈 不 可 能 从 输出 值 复原 输入 值 )。 这 个 任务 选择 散 列 项 
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数 的 原因 是 它们 非常 擅长 检测 近邻 中 的 重复 项 。 当 两 个 值 产 生 相 同 的 输出 时 , 它们 会 导致 散 列 冲 
突 (hash collision )。 当 一 个 散 列 函数 应 用 于 多 个 不 同 的 输入 时 ， 如 果 和 希望 快速 检索 这 些 输 入 ， 就 
可 以 将 它们 集中 到 散 列 表 中 。 散 列表 的 好 处 是 ,你 可 以 用 散 列 计算 来 检索 一 个 项 ， 而 不 必 通 过 翻 
查 所 有 项 来 查找 它 ， 散 列 羡 数 会 告诉 你 它 在 散 列 表 中 的 位 置 。 

使 用 局 部 敏感 散 列 (LSH )， 输 入 图 像 特征 回 量 会 被 传递 到 几 个 不 同 的 散 列 因数 ， 方 便 相 似 
的 项 上 映射 到 相同 的 桶 ( bucket， 也 就 是 散 列 表 ) 里 。 在 内 部 ，LSH 的 目的 是 最 大 化 两 个 相似 项 的 
散 列 冲突 概率 。 当 图 像 被 输入 LSH 时 ， 它 通过 几 个 散 列 函数 传递 其 特征 向 量 。 输 入 图 像 特征 向 
量 最 后 存储 在 桶 中 ， 而 桶 指明 输入 图 像 需 要 与 哪 幅 图 像 比较 。 这 个 操作 和 散 列 函数 一 样 , 通常 很 
快 。 此 外 ， 利 用 特殊 类 型 的 散 列 函数 ， 你 通常 可 以 将 相似 的 输入 映射 到 相同 的 桶 中 。 

在 Lucene 中 ， 这 些 操作 可 以 通过 创建 一 个 专用 的 Analyzer (分 析 右 ) 来 实现 。 你 要 构建 
的 LSH 分 析 需 将 执行 一 些 步 骤 来 生成 散 列 值 或 桶 ， 并 存储 在 索引 中 ， 就 像 纯 文 本 一 样 。 因 此 ， 
在 运用 特征 向 量 时 ， 不 仅 可 以 使 用 FloatPoint 字段 作为 向 量 空间 中 的 点 ， 也 可 以 使 用 Lucene 
针对 LSH 的 文本 功能 , 将 LSH 生 成 的 散 列 值 作为 普通 词素 存储 。 

LSH 算法 不 仅 会 为 整个 特征 向 量 生成 散 列 值 , 也 会 为 特征 向 量 的 局 部 生成 散 列 值 。 这 样 做 是 
为 了 最 大 化 匹配 的 概率 。 首先 , 标记 特征 回 量 并 提取 每 个 特征 及 其 位 置 。 例 如 , 从 特征 问 量 <0.1， 
0.2，0.3，0.4，0.5>， 你 将 获得 以 下 词素 : 0.1 (位 置 0)、0.2 (位 置 1)、0.3 (位 置 2)、0.4 
(位 置 3) 、0.5 (位 置 4 )。 你 可 以 将 每 个 词素 的 位 置 合 并 到 词素 文本 中 ， 用 于 计算 词素 文本 的 散 
列 函 数 会 根据 每 个 词素 的 位 置 进行 计算 。 整 个 特征 向 量 也 会 得 到 保留 。 

然后 , 为 每 个 单独 的 词素 创建 n-gram: 你 不 是 对 整个 向 量 或 单个 特征 进行 散 列 计算 , 而 是 对 
整个 向 量 和 它 的 一 部 分 进行 散 列 计算 。 例 如 ， 特 征 回 量 <0.1，0.2，0.3，0.4，0.5> 的 二 元 
A 0 ed 

最 后 ， 通 过 Lucene 内 置 的 MinHash 过 滤 需 应 用 LSH。MinHash 过 小 融会 将 几 个 散 列 函数 
应 用 于 词 项 ， 生 成 相应 的 散 列 值 ， 如 代码 清单 8-11 所 示 。 


代码 清单 8-11 LsHAnalyzer 类 





















































public class LSHAnalyzer extends Analyzer { 对 特征 向 量 的 特征 进 
er J LN 
QOverride 行 词素 切 分 
protected TokenStreamComponents createComponents (String fieldName) { 
Tokenizer source = new FeatureVectorsTokenizer (); 
TokenFilter featurePos = new FeaturePositionTokenFilter (source); 
ShingleFilter shingleFilter = new ShingleFilter 
(featurePos, min, max); 给 每 个 词素 附加 位 置 
shingleFilter.setTokenSeparator(" "),; 信息 
创建 特征 shinglerFilter.setOutputUnigrams (false); 
n-gram shingleFilter.setOutputUnigramsIfNoShingles (false); 
TokenStream filter = new MinHashFiljter(shingleFilter, hashCount, 
puckeétCount, DasheetSize, bucketCount > Ly)s < 一 使 用 LsH 过 滤器 


return new TokenStreamComponents (source, filter); 


} 
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要 使 用 LSH, 就 需要 同时 在 索引 时 和 搜索 时 在 索引 特征 回 量 的 字段 上 使 用 此 分 析 需 (如 本 书 
其 他 部 分 所 述 ) 注意 ,使 用 LSH 不 需要 像 前 一 和 中 那样 减少 特征 回 量 。 你 可 以 保持 特征 回 量 原 
样 不 变 〈 例 如 1024 个 值 )， 并 将 其 传递 给 LsHAnalyzer， 而 LSHAnalyzer 会 创建 特征 问 量 散 
列 值 。 

和 之 前 一 样 ， 为 存储 散 列 值 的 字段 配置 LsHanalyzer， 如 代码 清单 8-12 所 示 。 


代码 清单 8-12 为 1sh 字段 配置 LSsHAnalyzer 


创建 每 个 字段 对 应 
一 个 分 析 器 的 映射 


Map<String, Analyzer> mappings = new HashMap<>(); 只 要 文档 包括 1sh 
字段 ， 丈 使 用 
mappings.put ("lsh", new LSHAnalyzer ()); LSHAnalyzer 
Analyzer perFieldAnalyzer = new PerFieldAnalyzerWrapper (new 
whitespaceAnalyzer()，mappings); < 一 创建 perfield 分 析 器 ” 











IndexWriterConfig config = new IndexWriterConfig(perFieldAnalyzer); 





IndexWriter writer = new IndexWriter(directory, config); 
用 定义 好 的 分 析 创建 IndexWwriter 
器 创建 索引 配置 以 索引 Lucene 文档 





设置 索引 配置 后 ， 可 以 继续 索引 特征 癌 量 。 假 设 在 一 个 每 行 有 1024 列 的 矩阵 (例如 名 为 
weights ) 中 针对 每 幅 图 像 提 取 特 征 癌 量 ， 那 么 你 可 以 索引 lsh 的 字段 的 每 一 行 。 这 个 lsh 字 
段 是 由 LSHAnalyzer 处 理 过 的 ， 如 代码 清单 8-13 所 示 。 
代码 清单 8-13 ”在 lsh 字段 中 索引 特征 向 量 

使 用 标签 在 图 像 上 迭代 (如 在 CIFAR 





a 数据 集中 的 dog、deer、car 等 ) 从 权重 和 矩阵 得 
for (String sl : stringLabels) { 到 特征 癌 量 
Document doc = new Document (); 
float[] fv = weights.getRow(k) .toFloatVector(); < 一 





| 将 特征 向 量 的 浮 点 数 答 阵 
Se 转换 为 字符 串 类 型 


ww TexXxtFElelda(" Labpel1"，S1L1，Flelaq.Store.YES) ) ; 








索引 当前 的 


图 像 标签 doc.add (new TextField("lsh", fvString, Field.Store.YES));} 
在 1sh 字段 中 索 
writer.addDocument (doc); “< 一 索引 文档 引 当 前 图 像 特征 
K++， 回 量 
} 
writer.commit (); ”< 一 一 在 磁盘 上 持久 化 更 改 


Q 为 便于 理解 此 段 代码 ， 以 下 引用 Lucene 官方 文档 对 PerFieldAnalyzerWrapperr 类 的 说 明 :“ 这 个 分 析 器 用 
于 不 同 字 上 段 需要 不 同 分 析 技 术 的 场景 。 用 PerFieldAnalyzerWrapper (Analyzer,，, java.util.Map) 中 的 
Map 参数 为 字段 添加 非 默认 分 析 需 。 一 一 译 考 注 





8.$ 处 理 未 标记 的 图 像 | 





要 使 用 LSH 碍 询 相 似 的 图 像 ， 可 以 检索 得 询 图 像 的 特征 回 量 ， 提 取 其 词 系 散 列 值 ， 并 用 这 
些 散 列 值 运行 简单 的 文本 查询 ， 如 代码 清单 8-14 所 示 。 


代码 清单 8-14 使 用 LSsHAnalyzer 查询 

















+ 查 j 受 pF 
获取 查询 图 像 的 创建 LSHAnalyzer 
特征 向 量 字 符 串 
String fvString = reader.document (qQqocIad) .get ("lsh"); 使 用 LsHAnalyzer 得 
到 特征 向 量 的 词素 散 
Analyzer analyzer = new LSHAnalyzer();} 列 值 
Collection<String> tokens = getTokens (analyzer, "lsh", fvString).; < 
BooleanQuery .Builder booleanQuery = new BooleanQuery .Builder();} 创建 一 个 
布尔 查询 


for (String token : tokens) f{ 
booleanQuery .add (new ConstantScoreQuery (new TermOuery (new Term\( 


reldName; tokeny yy PooleanGlause O00ur.onOULDy, 是 为 每 个 词素 散 列 ， 创 


ee 人 于 一 个 词 项 查询 ( 具 
Uer S Uer 三 OOLGanUUGTY 。DUTLI NN 
> 过 有 固定 分 数 ) 


TopDocs topDocs = searcher. OO 3 完成 查询 创建 
运行 LSH 查询 , 采 
用 最 好 的 3 个 结果 


LSH 通常 可 以 比 最 近邻 搜索 更 快 地 获得 相似 的 候选 项 , 代价 是 LsHAnalyzer 生成 的 特征 向 
量词 项 占用 了 更 多 的 索引 空间 。 当 索引 中 的 图 像 数量 很 多 时 ，LSH 的 速度 优势 尤其 明显 。 此 外 ， 
将 特征 向 量 维 数 减少 到 一 个 较 小 值 ( 如 前 一 节 中 的 8 ) 的 计算 量 有 时 会 非常 大 , 而 LSH 不 需要 对 
特征 向 量 进行 这 样 的 预 处 理 。 因 此 在 这 种 情况 下 ， 且 不 考虑 查询 时 间 的 话 ， 它 可 能 是 比 最 近邻 算 
法 更 好 的 选择 。 


8.5 处理 未 标记 的 图 像 


在 本 市 中 , 你 将 接触 这 样 的 情况 : 有 一 组 未 标记 的 图 像 , 并 且 你 不 能 用 适当 的 类 别 ( 如 CIFAR 
数据 集中 的 deer、automobile 、ship 、track 等 ) 标记 其 中 的 每 幅 图 像 ， 以 创建 一 个 训练 集 。 

这 可 以 是 你 自己 的 图 集 , 你 希望 能 搜索 它 。 正 如 前 几 市 所 述 , 你 需要 为 每 幅 图 像 提供 一 个 癌 
量 表 示 ， 以 便 根据 其 内 容 进 行 搜 索 。 但 是 如 有 果 图 像 没有 标签 ， 你 就 不 能 借助 前 面 的 CNN 架构 生 
成 它们 的 特征 回 量 。 

为 了 解决 这 个 问题 ,可 以 使 用 一 种 神经 网 络 。 该 网 络 的 任务 是 学 习 对 输入 数据 进行 编码 ( 编 
人 码 后 的 数据 维 数 通 和 常 比 原始 数据 更 低 )， 然 后 重 构 这 些 数据 。 这 样 的 神经 网 络 称 为 自动 编码 器 
( autocoder )。 它 们 通常 是 这 样 建 立 的 : 网 络 的 一 部 分 将 输入 编码 成 具有 固定 大 小 的 问 量 ( 也 称 为 
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隐 含 表示 ，latent representation )， 然 后 此 向 量 被 再 次 转换 回 原始 输入 数据 “， 作 为 目标 输出 。 例 
如 ， 这 种 上 自动 编码 融 可 以 将 图 像 问 量 转换 为 8 维 癌 量 ， 使 该 问 量 可 以 作为 Lucene FloatPoint 受 
到 索引 。 在 目 动 编码 右 中 ， 将 输入 数据 转换 为 具有 所 需 维度 ( 在 此 例 中 是 8) 的 另 一 个 回 量 的 部 
分 被 称 为 编码 器 。 网 络 中 将 隐 舍 表示 转换 回 原始 数据 的 部 分 被 称 为 解码 器 。 通 常情 况 下 ,编码 蕴 
和 人 解码 剖 的 结构 相同 ， 只 是 互 为 镜像 ， 如 图 8-24 中 的 目 动 编码 器 示例 所 示 。 
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图 8-24 日 动 编码 带 


自动 编码 器 有 许多 “ 变 体 ”。 在 生成 大 型 图 像 向 量 的 紧凑 隐 含 表示 时 ， 可 以 使 用 变 分 自 编码 
器 ( variational autoencoder 或 VAE )。 变 分 自 编 码 带 生成 符合 单位 高 斯 分 布 的 隐 含 表示 。 

要 使 用 未 标记 的 数据 测试 自动 编码 需 的 使 用 情况 ， 仍 可 使 用 CIFAR 数据 集 ， 但 这 回 不 使 用 
附加 到 每 幅 图 像 的 类 别 来 训练 网 络 。 相反 , 在 训练 结束 后 , 你 可 以 使 用 它们 来 评价 搜索 结果 好 坏 。 
这 种 方法 的 重点 在 于 ， 即 使 图 像 没 有 标记 ,也 能 提供 一 种 为 图 像 生 成 稠密 向 量 表 示 ( 就 像 特征 向 
量 一 样 ) 的 方法 。 

在 DL4J 中 构建 一 个 VAE,， 它 的 隐 仿 表示 大 小 为 8 ， 编 码 需 和 解码 需 都 有 两 个 隐藏 层 。 第 一 
个 隐藏 层 有 256 个 神经 元 ， 第 二 个 隐藏 层 有 128 个 神经 元 ， 如 代码 清单 8-15 所 示 。 

















J 作者 并 未 详细 描述 上 自动 编码 锅 ,， 故 在 此 对 “转换 回 原始 数据 ”做 出 如 下 解释 。 数 据 输 入 一 个 编码 需 得 到 一 个 向 量 ， 
将 这 个 向 量 输入 解码 侣 并 输出 一 个 数据 ( 重 构 ， 也 就 是 文中 说 的 转换 回 原始 数据 )， 如 果 输 出 的 数据 和 一 开始 输 
入 的 数据 一 致 〈《 理 想 情 况 下 就 是 一 样 的 )， 那 就 认为 这 个 回 量 能 表示 输入 数据 。 这 里 要 做 的 是 通过 调整 编码 融和 
解码 天 的 参数 ， 使 得 重 构 误 差 最 小 〈 即 编码 融 的 输出 和 原始 数据 相像 或 一 致 )， 调 整 好 后 数据 输入 编码 天 后 得 到 
的 向 量 ， 就 是 我 们 需要 使 用 的 特征 。 一 一 诺 者 注 
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代码 清单 8-15” 变 分 目 编 码 硕 配置 
int height = 32; 
i Mol aE 
int numSamples = 2000;，; 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder!() 
.1ist() 


.layer(0, new VariationalAutoencoder.Builder () i 


.activation(Activation.SOFTSIGN) 的 构建 类 
.encoderLayerSizes(256, 128) 
a ee he 七 ] IDENTITY) 为 解码 右 定 义 每 
个 隐藏 层 大 小 .PZXActivationFunction (Activation. 个 隐藏 层 大 小 


.reconstructionDistribution( 
new BernoulliReconstructionDistribution\( 
Activation.SIGMOID.getActivationFunction())) 
.numSamples (numSamples,) 
.nIn(height * width) ”< 一 输入 数据 大 小 
.nOut (8) < 一 一 一 一 隐 含 表示 大 小 
-tt EG 
.pretrain (true) .backprop (false) .build().; 


MultiLayerNetwork model = new MultiLayerNetwork (conf).,; 
model.init(); 


你 希望 使 用 CIFAR 图 像 来 训练 VAE。 但 如 前 几 节 所 述 , 图 像 是 由 多 个 通道 组 成 的 , 在 CIFAR 
中 ， 每 幅 图 像 与 大 小 为 32 x 32 的 3 个 矩阵 相关 联 。 即 使 使 用 一 个 单 通道 ， 自 动 编码 需 也 需要 向 
量 ， 而 不 是 矩阵 。 若 要 解决 此 问题 ， 必 须 将 32 x 32 矩阵 重 塑 为 大 小 为 1024 的 向 量 ， 这 可 以 通过 
重 塑 (reshape ) 操作 完成 ， 如 代码 清单 8-16 所 示 。 为 了 简单 起 见 ， 假 设 使 用 灰 度 CIFAR 图 像 ， 
因此 只 有 一 个 通道 而 不 是 3 个 通道 。 


代码 清单 8-16 ” 重 塑 CIFAR 图 像 ， 以 输入 变 分 目 编码 天 

















int channels = 1; 

int batchSize = 128; 

CifarDataSetIterator dsi = new CifarDataSetIterator!\( 
batchSize, numSamples, new int[] {height, width, 
channels},，preProcessCifar，true); < 一 读 取 CIFAR 数据 集 


Collection<DataSet> reshapedData = new 


LinkedList<>(); 存储 重 塑 数据 到 
while | { collection 中 用 
DataSet batch = dsi.next (batchSize).; 于 训练 VAE 


for (int k = 0; k < batchSize; k++) f{ 
在 图 像 中 迭代 






DataSet current = batch.get (k); 
DataSet dataSet = current.reshape(1, height * 


width).; 
reshapedData.add (dataSet); 重 塑 图 像 从 
} 32X32 到 1 


} 重 塑 后 的 图 像 添加 


QSs1.reset ( ) ; 
() 到 collection 
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一 旦 图 像 得 到 重 塑 ， 就 可 以 将 它们 输入 VAE 进行 训练 ， 如 代码 清单 8-17 所 示 。 


代码 清单 8-17” 预 训练 变 分 编码 符 


int epochs = 3:; 
DataSetIiterator trainingSet = new be te 
ListDataSetIterator<>(reshapedData); 
model .pretrain(trainingSet, epochs),; 进行 几 轮 VAE 
训练 





训练 结束 后 ， 将 每 幅 图 像 的 隐 含 表示 索引 到 Lucene 索引 中 。 为 了 做 一 个 简单 的 评价 ， 还 可 
以 将 每 幅 图 像 的 标签 索引 到 搜索 引擎 中 。 这样 就 可 以 将 查询 图 像 的 标签 与 结果 图 像 的 标签 进行 比 
较 ， 如 代码 清单 8-18 所 示 。 


代码 清单 8-18 ”索引 从 VAE 中 提取 的 图 像 癌 量 
VariationalAutoencoder vae = modqe]l.9g9etLayer (0) ; 获取 VAE， 以 


提取 图 像 向 量 








tralnlngSet .reset () ; 
List<float[]> featureList = new LinkedList<>(); 


while (trainingSet.hasNext()) { 在 CIFAR 图 像 
DataSet batch = trainingSet.next (batchSize);} 中 迭代 
for (int k = 0; k < batchSize; k++) { 


DataSet dataSet = batch.get (k).; 
INDArray labels = dataSet .getLabels(); 
String label = cifarLabels.get (labels.argMax(1) 


.maxNumber () .intValue()); 获取 附加 在 当前 图 
, 像 上 的 标签 
INDArray latentSpaceValues = vae.activate (dataset 
.getFeatures(), false, LayerWorkspaceMgr 
.noWorkspaces () ) ; 





floatl[l] aFloat = lJatentSpaceValues.data() .asFloat(); 
Document doc = new Document ( ) ; 


doc.add (new FloatPoint ("features", aFloat)).; 以 当前 重 塑 图 像 为 
doc.add(new TextField("label", label, Field.sStore.YES)); | 输入 ， 让 VAE 执行 


writer.addDocument (Qoc ) ， 
featureList.add(aFloat).; 


前 馈 传递 





将 提取 的 每 幅 图 像 | | 用 文档 的 图 像 
) 特征 存储 到 列表 中 ，| | 癌 量 和 行 全 过 
writer.commit(); 用 于 后 续 查 询 引文 档 





有 了 用 隐 含 表示 和 标签 索引 的 图 像 , 就 可 以 使 用 Lucene 的 FloatPointNearestNeighbor 
执行 最 近邻 搜索 ， 如 代码 清单 8-19 所 示 。 要 知道 结果 是 否 恨 好 ， 不 必 查 看 每 幅 查询 图 像 和 结 
图 像 的 数据 ， 可 以 检查 查询 图 像 和 每 幅 结 果 图 像 是 否 共 译 相 同 的 标签 。 


代码 清单 8-19 ”使 用 最 近邻 搜索 进行 图 像 查 询 
DirectoryReader reader = DirectoryReader.open (writer).,; 
IndexSearcher searcher = new IndexSearcher (reader);} 




















Random r = new Random ( ) ; 
for (int counter = 0; counter < 10; counter++) f{ 
int idx = r.nextInt (reader.numDocs() - 1); < 一 选取 一 个 随机 数 








Document document = reader.document (1IqX) ; < 
US OOee SELOGLPOLNLNGgrestNeLrghbor 获取 以 随机 
有 数 为 其 标识 
LC (iO) 的 文档 
ScoreDoc[] scoreDocs = docs.scoreDocs; 
System.out .println("gquery image of a : "+ ra 
douunmen /Ge "lee yy 0 
打印 查询 | for (ScoreDoc sd : scoreDocs) { 大 联 的 图 人 人 
图 像 标 签 yeEemn en pinerie er P0066 2 执行 最 近邻 搜索 
reader.document (sd.doc) .getField("label") 
.StringValue()); 
} 打印 结果 图 像 文 
countertt+; 档 标识 和 标签 


: 


你 希望 查询 图 像 和 结果 图 像 在 大 多 数 情 况 下 共 至 相同 的 标签 。 可 以 在 以 下 输出 中 进行 检查 。 


query image of a : automobile 





-->277 : automobile 
-->1253 : automobile 
query image of a : airplane 


-->5250 : airplane 

-L750 < ‘Ship 

query image of a : deer 

二 人才 “3 EE 

-->1261 : bird 

query image of a : automobile 
-->9983 : automobile 
-->4239 : automobile 

query image of a : airplane 
-->6838 : airplane 

-->4999 : airplane 





正如 预期 的 那样 ， 大 多 数 结 采 与 查询 共 且 标签。 注意 ， 你 还 可 以 使 用 8.4.3 市 中 描述 的 局 部 
敏感 散 列 技术 ， 而 不 是 最 近邻 搜索 。 





8.6 总结 





口 搜索 像 图 像 这 样 的 二 进 制 内 容 需要 学 习 一 种 表示 法 ， 该 表示 法 可 以 捕获 能 在 图 像 间 进行 
比较 的 视觉 语 义 。 

口 传统 的 特征 提取 技术 有 局 限 性 ， 而 且 工 程 量 过 大 。 

口 卷 积 神经 网 络 是 最 近 兴 起 的 次 度 学 习 技术 的 核心 ， 因 为 它 可 以 在 网 络 训练 过 程 中 增 量 学 
习 图 像 表 示 抽 和 象 ( 边 绿 、 形 状 和 对 象 )。 

D CNN 能 从 图 像 中 提取 特征 向 量 ， 用 于 搜索 相似 图 像 。 

口 局 部 敏感 散 列 技术 可 以 蔡 代 最 近邻 方法 ， 基 于 特征 回 量 搜索 图 像 。 

口 如 打 图 像 没 有 标签 ， 目 动 编码 硕 可 以 帮助 提取 图 像 癌 量 。 
































本 章 内 容 

DO 在 生产 环境 中 配置 深度 学 习 模 型 

口 优化 性 能 和 部 署 

口 让 现实 中 的 神经 搜索 系统 处 理 数 据 流 


在 阅读 了 前 8 董 后 ,你 应 该 对 深度 学 习 和 它 如 何 改进 搜索 有 了 深入 的 理解 。 此 时 ,你 应 该 已 
经 准备 好 最 大 限度 地 利用 次 度 学 习 为 用 户 成 功 配置 搜索 引 警 系统。 然而 ,在 这 一 过 程 中 , 你 可 能 
想 知 道 如 何 将 这 些 理念 应 用 到 现实 世界 的 生产 系统 中 。 
D 在 生产 场景 中 如 何 应 用 这 些 方法 ? 
口 增加 深度 学 习 算 法 会 对 系统 的 时 间 限 制 和 空间 限制 造成 很 大 影响 吗 ? 
口 这 个 影响 有 多 大 ? 哪些 部 分 或 过 程 〈《 如 搜索 时 与 索引 时 ) 会 受到 影响 ? 
本 章 将 解决 这 些 实际 问 题 ， 并 讨论 在 搜索 引擎 中 应 用 深度 学 习 和 神经 网 络 时 需要 考虑 的 事 
项 。 本 章 还 将 探讨 当 搜索 引擎 和 神经 网 络 相 结合 时 性 能 如 何 , 并 通过 例子 为 在 实践 中 应 用 深度 学 
习 技 术 提 供 一 些 建议 。 
前 儿童 探索 了 深度 学 习 可 以 帮助 解决 的 几 种 搜索 问题 。 回 想 word2vec 模型 在 同义词 扩展 中 
的 应 用 〈 第 2 草 ) 或 循环 神经 网 络 在 扩展 查询 中 的 应 用 (第 3 章 )， 可 以 回忆 起 数据 流 在 神经 网 
络 和 搜索 引擎 中 的 流入 和 流出 。 可 以 把 搜索 引擎 和 神经 网 络 看 作 现 实 世 界 软件 体系 恕 构 中 的 两 个 
独立 组 件 。 神 经 网 络 需 要 进行 训练 才能 准确 预测 输出 。 同 时 ,搜索 引 敬 必须 能 抓 取 数据 ， 以 便 用 
户 进行 搜索 。 为 了 用 座 度 学 习 来 生成 更 有 效 的 搜索 结果 ， 就 需要 有 效 的 神经 网 络 。 这 些 相互 让 导 
的 需求 产生 了 几 个 逻辑 上 的 问题 ， 如 下 所 示 。 
口 训练 是 否 应 在 索引 之 前 进行 ? 
口 或 者 应 该 先进 行 索 3 引 1? 
口 你 能 组 合 这 些 数据 输入 任务 吗 ? 
口 如 何 处 理 数据 更 新 ? 
当 介 绍 在 真实 世界 中 部 署 基于 神经 网 络 的 搜索 引擎 时 需要 考虑 的 注意 事项 时 , 我 们 会 解答 
中 一 些 问题 。 
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9.1 这 度 插 习 的 性 能 与 约定 


为 了 解决 各 种 越 来 越 复 杂 的 任务 ， 新 的 深度 学 习 染 构 不 断 发 布 。 本 书展 示 了 其 中 一 些 任务 ， 
例如 生成 文本 (第 3 革 和 第 4 章 ), 将 文本 从 一 种 语言 翻 详 成 为 一 种 语言 (第 7 章 )， 基 于 内 容 对 
图 像 进 行 分 类 和 表示 (第 8 章 )， 等 等 。 不 仪 古 整个 模型 ， 新 类 型 的 激活 函数 、 代 价 疯 数 、 有 反问 
传播 自 法 优化 、 权 重 初始 化 方案 等 ， 也 正在 不 断 地 被 全 究 和 发 布 。 

本 书 中 介绍 的 深度 学 习 概 念 适用 于 近期 、 当 前 和 (希望 ) 更 新 的 神经 网 络 以 构 。 如 末 你 负责 
构建 一 个 搜索 引擎 的 基础 结构 , 你 可 能 会 寻找 那些 经 过 人 研究 人 员 证 实 , 在 某 些 特定 任务 上 工作 良 
好 (也 称 为 最 先进 的 ) 的 方法 。 以 机 种 翻译 或 独 像 搜索 为 例 ， 在 编写 本 书 时 ， 最 好 的 机 栗 翻 详 拉 
术 是 序列 到 序列 模型 ， 如 基于 注意 力 机 制 的 编码 器 -解码 器 网 络 "。 因 此 ,你 希望 实现 最 先进 的 模 
型 ， 并 期 得 它们 能 如 论文 所 述 ， 市 来 好 的 结 灯 。 在 这 种 情况 下 ， 第 一 个 挑战 是 重 现 论文 中 撞 述 的 
模型 ， 并 让 它 在 你 的 数据 和 基础 结构 上 有 效 地 工作 。 为 此 ， 需 要 做 到 

口 神经 网 络 提 供 的 结 来 必须 准确 ; 

口 神经 网 络 提 供 结 来 的 速度 必须 快 ; 

口 软件 和 便 件 在 时 间 上 和 空间 上 必须 能 充分 满足 计算 负载 的 需求 ( 同时 记 住 ， 训 练 是 知 要 

i 

下 一 市 将 介绍 实现 一 个 神经 网 络 模 型 并 解决 特定 任务 的 整个 过 程 ， 并 看 看 为 了 应 对 这 些 挑 

战 ， 你 需要 这 循 哪些 常规 步 又 。 


从 模型 设计 到 生产 


第 8 章 展示 了 卷 积 神经 网 络 的 实践 应 用 : 对 图 像 进行 分 类 。 一 旦 训练 完成 ， 就 可 以 使 用 网 络 
提取 特征 向 量 供 搜索 引擎 索引 和 搜索 。 但 是 这 没有 考虑 神经 网 络 分 类 的 准确 率 。 现 在 ,在 建立 一 
个 与 搜索 引擎 结合 使 用 的 良好 神经 网 络 模型 过 程 中 , 请 跟踪 一 些 关 于 准确 率 、 训 练 和 预测 时 间 的 
数字 。 你 将 再 次 使 用 第 8 章 中 的 CIFAR 数据 集 ， 看 看 如 何在 保持 训练 时 间 合 理 的 情况 下 ， 逐 步 
调整 神经 网 络 模型 以 提高 准确 率 。 该 项 目 将 一 步 一 步 地 进行 ， 你 在 自己 的 项 目 中 也 应 该 这 样 做 。 

对 现实 世界 中 的 数据 进行 索引 通常 是 昂贵 的 。CIFAR 数据 库 只 有 几 万 幅 图 像 , 但 许多 实时 部 
署 必 须 索 引 数 以 十 万 、 百 万 或 十 亿 计 的 网 像 或 文档 。 当 对 一 亿 幅 图 像 进行 特征 向 量 索引 时 ， 如 果 
特征 回 量 不 能 准确 地 反映 图 像 内 容 , 那么 不 管 你 如 何不 情愿 ， 你 还 是 需要 去 重复 该 过 程 。 这 时 用 
户 体验 不 是 很 好 。 因 此 ， 在 索引 特征 向 量 之 前 ， 通 常会 进行 一 些 试验 和 评价 。 

首先 介绍 一 种 卷 积 神经 网 络 ( CNN )。 这 种 CNN 类 似 于 最 初 的 几 种 基于 CNN 的 架构 ， 它 在 
图 像 分 类 方面 取得 了 良好 的 效果 。 它 就 是 LeNet 架构 。 这 是 一 个 简单 的 CNN， 和 第 8 章 中 配置 
的 类 似 , 但 是 在 卷 积 深度 、 接 收 域 大 小 、 步 长 和 密集 层 维度 的 配置 参数 方面 略 有 不 同 ( 见 图 9-1、 
代码 清单 9-1 )。 













































































QO) 这 个 最 近 的 研究 甚至 放弃 了 RNN: 参见 Ashish Vaswani 等 人 的 文章 “Attention Is All You Need”。 
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图 9-1 示例 LeNet 模型 


代码 清单 9-1 LeNet 类 型 的 模型 
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder!() 

.1ist() 

.layer(0, new ConvolutionLayer.Builder(new int[]{5, 5}, new int[]{1, 1} 
, new int[]{0, 0}) .convolutionMode (ConvolutionMode.Same) 
.mnIn(3) .nOut (28) .activation (Activation.RELU) .build()) 

.layer(1, new SubsamplingLayer.Builder (PoolingType.MAxX, 
new int[]{2,2}) .build()) 

.layer(2, new ConvolutionLayer.Builder (new int[]{5,5}, new int[] {1,1}, 
new int[] {0,0}) .convolutionMode (ConvolutionMode.Same) 
.NOut (10) .activation (Activation.RELU) .build()) 

.layer(3, new SubsamplingLayer.Builder (PoolingType.MAX, 
new int[]{2,2}) .build()) 

.layer(4, new DenseLayer.Builder() .nOut (500) .build()) 

.layer(5, new OutputLayer.Builder (LossFunctions.LossFunction 
.NEGATIVELOGLIKELIHOOD) 

.nOut (numLabels) .activation (Activation.SOFTMAX) .build()) 

.backprop (true,) 

.pretrain (false) 

.SetInputType (InputType.convolutional (height, width, channels)) 

.build(); 


该 模型 包含 两 个 卷 积 层 序列 ， 接 着 是 一 个 最 大 池 化 层 和 完全 连接 层 。 过 滤 厦 尺寸 为 5 x 5， 
第 一 个 卷 积 层 深度 为 28, 第 二 个 卷 积 层 深 度 为 10。 密集 层 尺 寸 为 500。, 最 大 池 化 层 的 步 长 等 于 2。 

这 个 模型 有 些 过 时 ， 所 以 不 能 期 得 它 表现 得 非常 好 。 但 是 ,实践 中 最 好 先 从 小 模型 开始 ， 看 
看 它 能 走 多 远 。 

首先 ， 你 将 从 CIFAR 数据 集中 训练 超过 2000 个 示例 ， 以 迅速 获得 一 些 关 于 模型 参数 好 坏 的 
反馈 ， 如 代码 清单 9-2 所 示 。 如 果 发 现 模 型 偏离 开始 得 太 快 ， 就 要 避免 加 载 大 型 训练 集 。 
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代码 清单 9-2 ”从 CIFAR 中 训练 超过 2000 个 示例 











int height = 32; 

int width = 32; 

int channels = 3; 

int numSamples = 2000;，; 从 CIFAR 数据 集中 只 使 用 

int batchSize = 100; 2000 个 随机 抽取 的 样本 

boolean preProcessCifar = false; 

CifarDataSetIterator dsi = new CifarDataSetIiterator (batchSize, numSamples, 


new int[] {height, width, channels}, preProcessCifar, true);} 


MultiLayerNetwork model = new MultiLayerNetwork (conf).; 
model .init(); 
for (int i = 0; 1 < epochs; ++i) { 
model.fit(dsi); 
} 


1. 模型 评价 

为 了 监控 神经 网 络 如 何 学 习 对 图 像 分 类 , 你 可 以 使 用 DL4J UI 监控 训练 过 程 。 在 最 好 的 情况 
下 ,分 数 会 朝 着 0 稳步 下 降 ; 但 是 在 图 9-2 中 的 情况 下 ， 它 下 降 得 非常 慢 ， 且 从 未 达到 接近 0 的 
点 。 回 想 一 下 , 该 分 数 度量 的 是 , 神经 网 络 在 尝试 预测 每 个 输入 图 像 的 类 别 时 错误 的 总 数 。 所 以 ， 
在 使 用 这 些 统计 数据 时 ， 你 不 必 和 希望 它 表 现 得 很 好 。 
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图 9-2 ”LeNet 训练 


在 评价 机 带 学 习 模型 的 预测 准确 率 时 ,将 用 于 训练 的 数据 集 ( 训练 集 ) 与 用 于 测试 模型 质量 
的 数据 集 ( 测试 集 ) 分 离 是 一 种 好 方法 。 在 训练 过 程 中 ， 模 型 可 能 会 过 拟 合 ( overfit ) 数据 ， 因 
此 它 在 训练 集 上 可 能 有 很 好 的 准确 率 ， 在 略 有 不 同 的 数据 上 却 不 能 很 好 地 工作 。 因 此 , 使 用 测试 
集 有 助 于 了 解 模型 在 没有 参与 其 训练 的 数据 上 表现 如 何 。 

可 以 在 一 个 不 同 的 图 像 集合 上 创建 一 个 单独 的 迭代 从， 并 将 其 传递 给 DL4J 工具 进行 评价 ， 
如 代码 清单 9-3 所 示 。 


代码 清单 9-3 ”使 用 DL4j 评价 模型 
CifarDataSetIterator cifarEvaluationData = new 
CifarDataSetIliterator(batchSize, 1000, new int[] { 
height, width, channels}, preProcessCifar, false); 创建 一 个 测试 


集 达 代 器 
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; . 守信 
Evaluation eval = new Bvaluation(cifareval | ee 
.getLabels ()); 评价 工具 


while(cifarEvaluationData.hasNext()) { ”| 在 测试 集 上 


迭代 
DataSet testDS = cifarEvaluationData.nextl 


batchsize) ; | 获取 下 一 个 小 批量 数据 
(本 例 中 是 60 个 示例 ) 


INDArray output = model .output (LestDS 


.getFeatureMatrix()),; ”| 在 当前 批量 上 
行 预 涡 
eval.eval (testDS.getLabels(), output) | 
， 使 用 实际 输出 和 
System.out .printin(eval.stats()) CIFAR 输出 标签 
在 标准 输出 上 进行 评价 
打印 统计 数据 





评价 统计 数据 包括 准确 率 、 精 确 率 、 召 回 率 、F1 分 数 和 混 消 和 矩阵 等 度量 (Fl 分 数 的 值 介 
0 和 1 之 间 ， 它 考虑 了 精确 率 和 召回 率 ”)。 











# of classes: 10 

ACCuUuracy: 0.2310 
Precision: 0.2207 
Recall: 0.52.255 
Fl1] Score : 0.2133 


Precision, recall & FL: macro-averaged (equally weighted avg. of 10 classes) 
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如 混 消 矩阵 〈confusion matrix ) 所 示 ， 对 于 第 一 行 中 的 类 别 airplane，31 个 样本 已 经 被 下 
确 地 分 配给 该 类 ， 但 是 大 约 相 同 数量 的 预测 (26 个 airplane 图 像 ) 被 分 配给 了 不 正确 的 类 别 
ship。 在 理想 情况 下 ， 混 消 和 矩阵 的 主 对 角 线 上 是 高 值 ， 而 其 他 地 方 是 低 值 。 














(DF1 仇 (Fl score ) 被 定义 为 精确 率 ( 简写 为 P) 和 召回 率 ( 简写 为 尺 ) 的 调和 平均 数 , 即 Fl 分 数 =2 x (PxR)(P+R)。 
在 DL4J 中 ，F1 分 数 定义 为 2x TP/(2TP + FP + FN)。 根据 精确 率 、 召 回 率 、TP、FP、FN 的 定义 ， 这 两 个 公式 是 
等 价 的 。 DL4J 算法 中 根据 样本 分 类 情况 ,使 用 了 宏 平均 (macro-averaged ) 计算 分 数 ， 所 以 本 例 中 不 能 简单 地 
使 用 上 述 公 式 ， 通 过 精确 率 、 召 回 率 计 算 Fl 分 数 。 一 一 译 者 注 











9.1 深度 学 习 的 性 能 与 约定 241 





将 numsamples 值 更 改 为 5000， 青 次 进行 训练 和 评价 ， 可 以 期 望 得 到 更 好 的 结 








# of classes: 10 

ACCuracy: 0.3100 
Precision: 0.3017 
Recall: 0.3061 
FE Score : 0.3010 


Precision, recall & FL: macro-averaged (equally weighted avg. of 10 classes) 














Rs DER 
38 2 6 3 5 1 1 2 证 汉 0 = airplane 
4 34 3 2 4 4 6 414 14 1 = automobile 
15, 12 .7 15 9 16 8 TQ 到 2 = bird 
7 要 了 26 .16 11 15 13” 1 6 3 = cat 
4 210 924 713 5 8 8 4 = deer 
YB OD DE “3 “6 5 = dog 
3 8 0 9 22, -5 40 2 2 6 = frog 
4 8 61312 2 929 217 7 = horse 
17 5- 2 8 4 2 0 .4 51 13 8 = ship 
713 3 4 4 3 210 21 42 9 = truck 





Fl 分 数 上 升 了 0.09 左右 (0.3010 减 去 0.2133 )。 这 是 巨大 的 进步 ! 但 仪 有 30% 的 概率 取得 好 
的 结果 ， 在 生产 环境 中 是 不 合适 的 。 

你 也 许 会 回忆 起 神经 网 络 训练 使 用 反 回 传播 算法 〈 最 终 会 有 变化 ， 取 决 于 特定 的 体系 结构 ， 
如 循环 神经 网 络 中 基于 时 间 的 反问 传播 )。 反 加 传播 算法 旨 在 通过 调整 权重 减少 网 络 预测 所 犯 的 
错误 ， 进 而 降低 整体 误差 率 。 在 某 一 点 上 ， 算 法 将 找到 一 组 具有 可 能 最 低 的 误差 的 权重 〈 例 如 ， 
附加 到 不 同 层 神 经 元 之 间 的 连接 的 权重 )， 但 是 这 可 能 需要 很 长 时 间 ， 具 体 时 间 取 决 于 用 于 训练 
的 下 列 数据 特征 。 

口 训练 示例 的 多 样 性 一 一 有 些 文 本 是 用 正式 语言 编写 的 ， 另 一 些 文本 则 是 用 倡 话 编写 的 ; 

或 者 ， 有 些 照 片 是 白天 拍 的 ， 有 些 则 是 晚上 拍 的 。 
口 训练 示例 的 噪声 一 一 有 些 文本 有 打字 错误 或 语法 错误 ; 或 者 ， 一 些 图 像 质量 差 ， 或 包含 
水 印 及 其 他 类 型 的 噪声 ， 使 得 训练 更 加 困难 。 

神经 网 络 训练 收敛 到 一 组 好 权重 的 能 力也 极 大 地 依赖 于 参数 调整 , 例如 学 习 率 。 本 书 提 到 过 
它 ， 但 是 这 里 值得 再 说 一 遍 ， 因 为 它 是 一 个 必须 理解 的 基本 方面 。 学 习 率 太 高 会 导致 训练 失败 ， 
学 习 率 太 低 会 使 训练 时 间 太 长 且 不 能 收敛 到 一 组 好 的 权重 。 

图 9-3 显示 了 神经 网 络 相 同 、 学 习 率 不 同时 的 训练 成 本 。 你 可 以 清楚 地 看 到 , 随 着 时 间 推 移 ， 
两 个 不 同 的 学 习 率 都 收敛 到 相同 的 权重 集合 。 学 习 开 始 于 时 间 jj， 考 虚 一 下 如 果 在 或 5 停止 训 
练 ， 那 么 会 发 生 什 么 。 如 果 在 少量 迭代 之 后 就 停止 训练 (在 时 间 之 前 )， 你 会 排除 高 学 习 率 的 
方案 ， 因 为 它 会 使 损失 增加 而 不 是 减少 ; 如 果 在 时 间 6 停止 训练 ,你 会 丢弃 低 学 习 率 的 方案 ， 因 
为 它 的 分 数 将 与 高 学 习 率 保持 一 致 ， 或 者 开始 增加 。 因 此 ， 最 好 使 用 一 些 合理 的 参数 设置 ， 设 计 
几 个 可 能 的 架构 ， 并 进行 一 些 实验 。 









































时 间 





图 9%-3 同一 神经 网 络 使 用 不 同学 习 率 进行 训练 的 损失 图 
在 DL4J Updater 实现 中 ， 人 们 可 以 设置 神经 网 络 的 学 习 率 ， 如 代码 清单 9-4 所 示 。 
代码 清单 9-4 ”设置 学 习 率 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder!() 


.UPdater (new Sgd(0.01)) 设置 学 习 率 
Re 为 0.01 
.build(); 


2. 添加 更 多 权重 

学 习 更 多 的 权重 可 能 会 导致 训练 耗费 更 多 的 时 间 和 资源 。 一 个 常见 的 错误 是 ， 人 们 会 尽量 增 
加 层 数 或 增加 层 的 大 小 。 但 是 ， 只 有 当 网 络 没有 足够 的 训练 能 力 来 适应 大 量 不 同 的 训练 样本 时 ， 
增加 层 才 有 帮助 , 例如 当权 重 的 数量 远 少 于 样本 的 数量 时 , 以 及 神经 网 络 很 难 收敛 到 一 组 好 的 权 
重 时 (也许 这 时 分 数 不 能 低 于 某 个 值 )。 

前 几 节 中 定义 的 代码 用 5000 个 样本 训练 了 一 个 相对 轻 量 级 的 CNN。 下 面 将 展示 如 果 让 卷 积 
层 更 深 (分 别 为 96 和 256 ) 会 发 生 什么 。5000 个 样本 的 训练 时 间 从 10 分 钟 增加 到 1 小时, 评价 
统计 数据 如 下 。 

















# of classes: 10 

ACCuUuracy: QQ: 30.14 
Precision: 0.3211 
Recall: 0.2843 


FE1 Score : 0.3016 
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在 这 种 情况 下 ， 给 网 络 增加 更 多 的 能 力 是 不 值得 的 。 

在 生产 中 使 用 深度 神经 网 络 需 要 一 些 经 验 , 但 这 不 能 一 下 解决 所 有 问题 。 要 学 习 的 权重 的 数 
量 是 一 个 重要 因素 : 训练 集中 的 数据 点 的 数量 应 该 总 是 小 于 权重 的 数量 。 不 遵循 该 规则 可 能 导致 
过 拟 合 和 难以 收敛 。 

现在 ， 对 数据 做 些 推理 。 假 如 有 一 些 32 x 32 的 小 图 像 。CNN 在 卷 积 层 随 着 时 间 的 推移 学 习 
特征 ,同时 在 池 化 层 降 低 采 样 。 给 初始 卷 积 层 更 多 的 权重 ,同时 使 池 化 层 的 步 长 值 为 2 而 不 是 1， 
也 许 是 有 帮助 的 。 你 希望 训练 网 络 用 更 少 的 时 间 取 得 稍微 好 一 点 的 结 



































# of classes: 10 

ACCuUuracy: 0.3170 
Precision: 0.3069 
Recall: Q'..3297 
FE Score : 0.3316 





由 于 对 池 化 层 进行 了 更 改 , 训练 在 5 分 钟 内 而 不 是 7 分 钟 内 完成 , 其 结果 的 质量 也 得 到 了 所 
高 。 这 看 起 来 可 能 没有 明显 的 不 同 ， 但 是 在 整个 数据 集 上 进行 训练 时 ， 这 会 产生 实际 的 影 啊 。 


3. 使 用 更 多 数据 进行 训练 

到 目前 为 止 ， 你 只 使 用 CIFAR 数据 集中 的 几 个 样本 进行 了 试验 。 为 了 更 好 地 理解 CNN 模型 
的 工作 原理 ， 你 需要 用 更 多 的 数据 来 训练 它 。 

CIFAR 中 有 超过 50 000 幅 图 像 。 你 应 该 对 数据 集 进行 拆 分 ， 将 其 中 的 大 部 分 用 于 训练 ， 将 
另外 的 一 些 图 像 用 于 评价 。 

在 使 用 完整 的 数据 集 之 前 ， 要 考虑 可 用 的 人 硬件 和 生产 场景 需求 , 注意 训练 所 花费 的 时 间 ， 这 
非常 重要 。 在 一 台 普 通 笔记 本 计算 机 上 对 2000 张 图 片 进 行 第 一 次 迭代 的 10 轮训 练 需 要 3 分钟; 
5000 张 图 片 的 10 轮训 练 需要 7 分 钟 。 这 个 时 间 在 实验 时 是 可 以 接受 的 , 因为 你 想 迅 速 得 到 反 锯 ; 
但 在 完整 数据 集 上 进行 几 轮 训练 可 能 需要 数 小 时 。 如 果 提 前 知道 需要 改变 什么 (才能 达到 更 好 的 
结果 )， 你 就 能 节约 时 间 。 

现在 ， 让 我 们 在 50 000 幅 图 像 中 按 当前 的 设置 进行 训练 ， 并 额外 保留 10 000 个 图 像 用 于 评 
价 。 我 们 可 以 期 望 在 训练 结束 时 会 得 到 更 好 的 评价 度量 结果 和 更 低 的 分 数 。 
































# of classes: 10 

ACCuracy: 0% 村 2:63 
Precision: 0.4213 
Recall: 0.4263 
Fl] Score: 0.4131 


Precision, recall & Fl1: macro-averaged (equally weighted avg. of 10 classes) 
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92 50 123 81 165 89 229 97 46 28 2 = bird 
19 34 40 247 48 200 216 103 19 74 3 = Cat 
44 21 58 83 284 60 263 128 33 26 4 = deer 
1 22 ‘69 189 63 337 158 100 29 22 D = dog 

3 26 20 90 66 32 661 52 9 41 6 = frog 
24 38 27 86 72 69 107 494 18 65 7 = horse 
122 2. 12 23 6 21 23 26 546 127 8 = ship 











在 几乎 全 部 训练 集 上 训练 后 ， 你 在 3 小 时 后 (在 普通 笔记 本 计算 机 上 ) 得 到 的 Fl 分 数 是 
0.4131。 但 你 对 模型 的 准确 率 仍 不 满意 ， 毕 况 它 的 误差 率 为 59%。 

在 这 种 情况 下 ， 查 看 损失 曲线 很 有 用 。 如 图 9-4 所 示 ， 曲 线 在 下 降 ， 如 果 你 有 更 多 的 数据 ， 曲 
线 可 能 会 继续 下 降 。 遗 憾 的 是 ， 在 这 个 例子 中 ， 除 非 使 用 更 小 的 测试 集 ， 否 则 曲线 不 会 继续 下 降 。 








Model Score vs. Iteration 


国 score 


2.0 summary 
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0.0 
500 1000 1500 2000 2500 3000 3500 4000 4500 
Score : 0.58644, Iteration : 3139 


图 9-4 CNN 全 训练 损失 图 


4. 调整 patch 大 小 

当 得 到 这 样 的 曲线 时 ， 可 以 考虑 是 否 使 用 了 错误 的 batch 参数 大 小 。 批 量 (batch ) 或 小 批 
量 ( mini-batch ) 是 一 组 训练 样本 ， 这 些 样本 被 放 在 一 起 并 作为 单独 一 批 输入 反馈 到 神经 网 络 。 
例如 ， 与 其 一 次 只 输入 一 幅 图 像 ， 或 是 每 次 只 输入 一 个 输入 体 (volume， 一 组 堆 著 矩阵 )， 不 如 
一 次 塞 入 多 个 输入 体 。 这 样 做 通常 有 两 个 后 果 : 

口 训练 速度 更 快 ; 

口 训练 不 容易 过 拟 合 。 

如 果 mini-batch 参 数 设置 为 1， 那 么 曲线 ( 特别 是 在 第 一 次 迭代 中 ) 的 起 伏 波动 将 较为 明 
显 “。 男 外 ， 如 果 mini-batch 参 数 设置 过 大 ， 网 络 可 能 无 法 学 习 输 入 中 很 少 出 现 的 特定 模式 和 
特征 。 








Q 即 上 下 波动 的 锯齿 形 。mini-batch 为 1 时 ， 称 为 随机 梯度 下 降 法 (stochastic gradient descent，SGD )， 细 市 可 
参见 SGD 相关 资料 。 令 人 困惑 的 批量 (batch )、 小 批量 ( mini-batch ) 等 术语 ， 可 参见 Ian 等 人 所 著 的 《深度 学 习 》 
8.1.3 5 一 一 十 者 证 
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平坦 的 损失 曲线 可 能 与 batcn 的 大 小 〈 在 本 例 中 为 100 ) 有 关 ， 这 个 batch 对 数据 来 说 太 
大 了 。 硅 要 查看 这 些 因 系 是 否 有 影响 ,可 以 在 一 部 分 数据 集 上 执行 快速 测试 。 如果 获得 了 令 人 振 
奋 的 结 末 ， 之 后 可 以 在 完整 的 数据 集 上 进行 训练 ， 以 验证 设置 中 所 要 进行 的 更 改 。 将 batch 参 
数 设置 为 48, 在 5000 个 实例 上 进行 训练 , 并 对 1000 幅 图 像 进 行 评价 。 这 次 你 希望 曲线 不 太平 滑 ， 
损失 也 较 低 ， 并 希望 模型 的 准确 性 更 好 。 

















# of classes: 10 

ACCuUuracy: 0.3274 
Precision: 0.3403 
Recall: 0.3324 
Fl] Score: 0.3218 


正如 这 些 结束 和 图 9-5 所 示 ， 缩 小 batch 有 助 于 加 快 接 近 最 小 损失 的 速度 。 这 比 把 batch 
大 小 设置 为 100 快 得 多 。 但 是 ， 训 练 花 费 了 更 多 的 时 间 ， 即 9 分 钟 ， 而 不 是 之 前 的 7 分 钟 。2 分 
钟 的 差异 在 更 大 的 矿 度 上 可 能 会 被 注意 到 ， 但 是 如 末 增 加 训练 时 间 换 来 了 明显 更 好 的 Fl 分 数 ， 
那么 这 是 可 以 接受 的 。 








Model Score vs. Iteration 





0.0 
100 200 300 400 500 600 700 800 900 1000 


Score : 0.63284, Iteration : 708 


图 9-5 ” batch 大 小 为 48 的 训练 


F1 分 数 从 0.3016 提高 到 0.3218。 因 此 ， 缩 小 batch 似乎 是 一 个 好 主意 ， 你 需要 用 完整 的 训 
练 来 证 明 它 ,我 们 不 会 将 这 样 一 个 小 型 训练 集 的 Fl 分 数 与 包含 超过 50 000 张 图 片 的 训练 集 的 Fl 
分 数 进行 比较 ， 因 为 这 不 公平 ， 并 可 能 会 误导 我 们 努力 的 方向 〈 并 阻挠 我 们 取得 成 果 )。 但 是 越 
小 的 batch 效果 就 越 好 吗 ? 将 batch 大 小 设置 为 24 并 查看 ( 见 图 9-6 )。 
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Model Score vs. Iteration 


图 9-6 patch 大 小 为 24 的 训练 


如 图 9-6 所 示 ， 此 时 曲线 的 起 伏 更 尖锐 ， 损 失 接近 batch 设置 为 48 时 ，F1 的 分 数 更 高 
( 0.3340 )， 但 训练 用 了 13 分 钟 而 不 是 9 分 钟 。 








# of classes: 10 

AcCcCcCUTracy : 0.3601 
Precision: 0.3512 
Recall: 0.3551 
Fi1 Score: 0.3340 


5. 评价 和 迭代 

现在 ， 你 必须 做 出 决定 : 在 时 间 和 计算 资源 方面 ， 你 能 否 负担 得 起 代价 更 大 的 训练 〈 例如， 
如 果 你 正 通过 云 服 务 进行 生产 训练 , 那 就 意味 着 花 更 多 的 钱 ) 以 得 到 更 好 的 数值 ? 有 一 种 好 方法 
是 , 把 所 生成 的 不 同 模型 连同 它们 的 评价 指标 和 训练 时 间 一 起 保存 起 来 , 这 样 在 后 期 需要 做 出 决 
定时 就 可 以 把 它们 找 出 来 。 

使 用 较 小 的 batch ,神经 网 络 能 够 更 好 地 处 理 更 多 不 同 的 输入 ,但 是 曲线 会 更 尖锐 .用 50 000 
个 例子 在 笔记 本 计算 机 上 训练 最 新 的 模型 ，5 小 时 后 得 到 以 下 评价 结 


























# of classes: 10 

ACCuUuracy: 0.5301 
Precision: 0.5213 
Recall: 0.5095 
Fl] Score: O01L53 


F1 分 数 提高 了 0.1 左右 , 从 0.4131 提高 到 不 错 的 0.5153。 但 是 , 这 仍然 不 适合 推送 给 最 终 用 
户 。 在 这 样 的 分 数 下 ， 如 果 用 户 寻 找 鹿 的 图 像 ， 那 么 他 们 可 能 只 得 到 5 张 亨 的 图 像 ， 镜 下 的 图 像 
将 显示 猎 、 狗 ， 甚 至 卡车 和 轮船 ! 

你 尝试 过 使 用 更 深 的 卷 积 层 , 但 是 没 用 。 如 前 文 所 示 ， 随 着 所 使 用 的 数据 量 增加 ,准确 紊 也 
提高 了 。 即 使 在 原型 阶段 , 要 得 到 好 结果 ,batch 大 小 也 已 被 证 明 是 一 个 重要 参数 , 但 是 pat ch 
大 小 的 变化 对 训练 时 间 有 影响 。 
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此 外 ， 仍 有 许多 因素 需要 考虑 。 

口 更 多 训练 轮 数 。 

口 检查 权重 和 偏差 初始 化 。 

口 查看 正则 化 ( regularization ) 选项 。 

口 改变 反问 传播 过 程 中 神经 网 络 更 新 权重 的 方法 ( 更 新 算法 )。 
口 在 这 种 情况 下， 确定 增加 层 是 否 会 有 帮助 。 

下 面 将 讨论 这 些 因 素 。 


6. 轮 数 
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示例 当前 使 用 了 10 轮 ( epoch )， 因 此 神经 网 络 看 到 相同 的 输入 10 次 。 其 原理 是 ， 网 络 如 采 
能 够 “多 次 ”看 到 这 些 输 入 ， 就 有 更 高 的 概率 获得 正确 的 权重 。 在 网 络 的 设计 开发 阶段 ，$、10 
和 30 这 样 的 小 数字 很 帝 见 。 但 是 在 训练 最 终 模 型 时 ， 可 以 改变 此 值 。 如 采 你 增加 了 轮 数 ， 但 没 
有 看 到 任何 显著 的 改进 , 那么 网 络 可 能 无 法 在 当前 设置 下 在 该 数据 上 取得 更 好 的 效 末 。 这 种 情况 








下 ， 你 需要 更 改 其 他 内 容 。 
将 轮 数 从 10 改 为 20， 得 到 以 下 结果 。 








# of classes: 10 

ACcCuracy: 0.3700 
Precision: 0.3710 
Recall: 0.3646 
ET Score: 0.3565 


训练 时 间 为 28 分钟， 见 图 9-7。 


Model Score vs. Iteration 


score 


2.0 summary 


0.0 
500 1000 1500 2000 2500 3000 3500 4000 
crmre -7 77A4R If+earafimnmn 


图 9-7 训练 20 轮 的 损失 曲线 


7. 权重 初始 化 
考虑 尚未 接收 任何 输入 的 神经 网 络 ， 此 时 网 络 中 的 所 有 神经 元 具有 激活 函数 和 连接 。 当 网 络 
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开始 接收 输入 和 反 向 传播 输出 错误 时 , 它 开 始 改变 附加 到 每 个 连接 的 权重 。 改变 这 些 权重 被 初始 
化 的 方式 ， 神 经 网 络 会 取得 出 乎 意料 的 成 果 。 大 量 的 研究 表明 ,权重 初始 化 对 训练 的 有 效 性 有 显 
著 影 响 "。 

一 种 将 权重 初始 化 的 简单 方法 是 将 它们 全 部 设置 为 0， 或 将 它们 设置 为 随机 数 。 前 面 几 章 介 
绍 了 学 习 算 法 (反问 传播 ) 是 如 何 改变 网 络 权 重 的 : 你 可 以 直观 地 认为 这 是 在 一 个 误差 曲面 上 移 
动 的 一 个 点 ( 见 图 9-8 ), 这 样 的 曲面 上 一 个 点 代表 一 组 权重 ,高度 最 小 的 点 代表 这 组 权重 使 得 网 
络 提交 的 误差 可 能 最 小 。 








~ 









A 
w= 
Ww -z= 二 = 二 


图 9-8 一 些 关 注 点 的 误差 曲面 


图 中 的 最 高 扩 代 表 一 组 具有 噩 误差 的 权重 , 中 间 点 代表 一 组 具有 平均 误差 的 权重 , 而 最 低 扣 
表示 一 组 误差 可 能 性 最 小 的 权重 。 反问 传播 算法 有 望 使 网 络 权 重 从 它们 的 起 始 位 置 移 动 到 的 部 标 
出 的 点 。 现 在 考虑 权重 初始 化 : 在 寻找 最 佳 的 一 组 权重 时 ， 它 将 负责 设置 算法 的 起 始点 。 在 权重 
初始 化 为 0 时 , 网 络 权重 可 能 位 于 中 心 的 白 点 , 这 样 既 不 坏 , 也 不 好 ; 而 使 用 一 个 随机 的 初始 化 ， 
你 既 可 能 会 走运 ， 把 权重 放 在 最 低 点 附近 (但 不 太 可 能 ) 也 可 能 会 把 权重 设置 在 离 它 很 还 的 地 
方 ， 比 如 项 部 标 出 的 点 处 。 这 个 起 始 位 置 会 影响 反问 传播 到 达 底 部 的 能 力 , 或 者 至 少 可 能 会 使 过 
程 变 得 道 阴 且 长 。 因 此 ， 要 成 功 进 行 训练 ， 神 经 网 络 权 重 的 良好 初始 化 至 关 重 要 。 

有 一 种 很 好 的 常用 权重 初始 化 ， 叫 作 Xavier 初始 化 。 基 本 上 ， 针 对 神经 网 络 的 权重 ， 它 是 
按 参 效 0 均 信 和 每 个 神经 元 特定 方差 的 分 布 来 初始 化 的 。 初 始 权重 取决 于 与 特定 神经 元 有 传 出 连 
接 的 神经 元 数量 。 你 可 以 在 DL4J 中 的 特定 层 使 用 以 下 代码 设置 此 项 。 

.layer (2, new ConvolutionLayer.Builder(new int[]{5,5}, new int[] {1,1}, new 


int[] {0,0}) 
.ConvolutionMode (ConvolutionMode.Same) 
































GD 参见 Xavier Glorot 和 Yoshua Bengio 的 文章 “Understanding the Difficulty of Training Deep Feedforward Neural 
Networks” ， 刊 载 于 Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS), 
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.nout (10) 使 用 Xavier 分 布 初始 化 
.weightInit (WeightInit .XAVIER UNIFORM) | 给 定 层 的 权重 


.aCctivation (Activation.RELU) 


8. 正则 化 
前 文 提 到 ， 当 单个 批量 中 的 输入 数量 减少 时 ,损失 曲线 变 得 不 那么 平滑 。 这 是 因为 ,批量 越 
少 ， 学 习 算 法 就 越 容易 发 生 过 拟 合 ( 见 图 9-9 )。 


Be 0 | 


Mw Mh 


图 9-9 ”小 批量 学 习 的 锐 化 损失 曲线 
在 神经 网 络 训练 算法 中 引入 正则 化 方法 通常 很 有 和 用。 这 是 因为 patch 比较 小 ， 但 在 实践 中 
这 通 间 也 是 一 个 好 做 法 。 所 用 的 正则 化 数量 视 情 况 而 定 。 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder!() 
.gradientNormalization(GradientNormalization.RenormalizeL2PerLayer) 
.11(1.0e-4d).12(5.0e-4d) 


使 用 正则 化 和 权重 初始 化 ,在 5000 幅 图 像 上 进行 男 一 组 10 轮训 练 。 以 下 是 最 终结 果 。 




















# of classes: 10 

ACCuUuracy: 0.4454 
Precision: 0.4602 
Recall: 0.4417 
Fl] Score: 0.4438 


训练 花 了 了 16 分 钟 ， 但 如 图 9-10 所 示 ， 损失 减少 的 速度 要 比 以 前 的 设置 快 得 多 ， 并且 降 到 了 
一 个 更 低 的 值 。 正 如 所 料 ， 当 训练 样本 相对 较 少时 ，F1 分 数 比 较 高 。 
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Model Score vs. Iteration 


国 score 
2 0 summary 
1;5 
a 
0.5 
0.0 
250 500 750 1000 1250 1500 1750 2000 


Score ; 2.93936, Iteration : 508 


图 9-10 ”优化 调节 
注意 ， 随 着 轮 数 的 增 大 ， 结 果 会 有 所 提高 ， 因 此 像 之 前 一 样 ， 将 轮 数 增加 到 20。 











# of classes: 10 

ACcCuracy: 0.4435 
Precision: 0.4624 
Recall: 0.4395 
FE Score: 0.4411 


虽然 训练 时 间 增 加 到 19 分 钟 ， 曲 线 看 起 来 也 多 少 有 些 相似 ,但 令 人 和 慰 讶 的 是 ，F1 分 数 保 持 
不 变 ( 见 图 9-11 )。 有 几 种 原因 可 能 导致 这 种 情况 。 首 完 ， 你 可 能 逢 要 更 多 的 数据 。 








Model Score vs. Iteration 


国 score 
2 0 summary 
下 党 
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Score : 0.09694, Iteration : 1361 


图 9-11 20 轮 优化 调节 
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使 用 包含 50 000 幅 图 像 的 整个 数据 集 来 评价 最 后 设置 的 准确 率 ( 见 图 9-12 )。 








# of classes: 10 

ACCuUracy: 0.5998 
Precision: 0.6213 
Recall: 0.5998 
Fl] Score: 0.5933 


Model Score vs. Iteration 


score 


summary 





5000 10000 15000 20000 25000 30000 35000 40000 
Score : 0.82847, Iteration : 


图 9-12 ”全 部 数据 集 的 训练 损失 曲线 


得 到 好 数字 并 不 那么 容易 ,并 且 可 能 需要 按 刚 才 叙 述 的 过 程 进行 多 次 迭代 。 看 看 最 近 的 研究 ， 
在 神经 网 络 的 不 同方 面 寻 找 更 好 的 解决 方案 是 一 个 好 主意 。 在 茶 种 程度 上 , 调整 神经 网 络 像 是 一 
门 艺 术 ， 经 验 对 此 有 帮助 ， 但 是 了 解数 学 和 学 习 动 力 是 提出 有 效 模型 和 设置 的 关键 。 


9.2 索引 和 神经 元 协同 工作 


9.1 贡 演 示 了 一 个 端 到 端的 过 程 : 建立 和 调整 一 个 深度 神经 网 络 ， 以 在 准确 率 上 达到 最 佳 的 
结果 。 此 外 ， 你 简单 记录 了 训练 整个 网 络 所 需 的 时 间 。 用 这 些 配 置 ， 只 能 解决 一 半 的 问题 。 你 的 
目标 是 在 搜索 环境 中 使 用 次 度 学 习 模 型 来 加 最 终 用 户 提 供 更 有 意义 的 搜索 结果 。 现 在 问题 是 ,如 
何 与 搜索 引擎 一 起 使 用 和 更 新 这 些 次 度 学 习 模 型 。 

假设 此 刻 有 一 个 预 训练 过 的 模型 , 它 完全 适合 要 索引 的 数据 。 例如 , 你 为 文本 文档 编制 索引 ， 
并 希望 使 用 预 训练 过 的 ， 比 如 seq2seq 模型 ， 来 提取 用 于 搜索 引擎 的 排序 函数 的 思维 向 量 。 一 种 
直接 的 解决 方案 是 ， 建 立 一 个 文档 索引 管道 ， 首 先 将 文档 文本 发 送 到 seq2seq 模型 ， 然 后 提取 相 
应 的 思维 回 量 并 将 其 与 文档 文本 一 起 索引 到 搜索 引擎 中 。 如 网 9-13 所 示 ， 神 经 网 络 和 搜索 引擎 
的 动作 和 职责 有 很 多 交叉 。 
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被 送 至 seq2seq 待 索引 的 
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分词 器 ”分词 器 
过 滤器 1 过 滤器 1 
过 滤器 2 过 滤器 2 


过 着 古 3 过 小 器 3 









文本 和 回 量 分 别 有 
不 同 的 索引 管道 


图 9-13 索引 时 神经 网 络 与 搜索 引 敬 交互 


在 搜索 时 ， 再 次 使 用 seq2seq 模型 从 查询 中 提取 思维 回 量 〈 见 图 9-14 )。 然 后 ， 排 序 函 数 使 
用 查询 和 文档 思维 向 量 ( 以 前 存储 在 索引 中 ) 进行 评分 。 
看 到 这 些 图 , 你 可 能 会 觉得 一 切 都 非常 合理 。 但 是 神经 网 络 可 能 会 导致 索引 和 搜索 方面 的 额 
外 负担 。 
口 神经 网 络 预测 时 间 〈neural network prediction time ) 一 一 神经 网 络 在 索引 时 提取 文档 的 思 
维 问 量 需要 多 长 时 间 ? 神经 网 络 在 搜索 时 提取 查询 的 思维 癌 量 需要 多 长 时 间 ? 
口 搜索 引擎 索引 大 小 ( search engine index size ) 一 一 除了 文本 文档 使 用 的 存储 空间 外 ， 生 成 
租 入 需要 多 少 空间 ? 
一 般 来 说 ， 性 能 的 最 关键 方面 是 查询 ( 搜索 ) 阶段 。 你 不 能 期 望 用 户 仅仅 因为 你 的 排序 函数 
会 返回 更 好 的 结果 而 等 待 几 秒 钟 。 在 大 多 数 情 况 下 ， 用 户 永 远 不 会 了 解 搜索 框 背后 的 原理 ,他 们 
只 希望 它 快 速 可 徘 ， 并 给 出 好 结果 。 
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查询 文本 和 思维 
a 向 量 被 送 至 
让 搜索 引擎 







查询 文本 被 送 
至 seq2seq 模 型 












通过 查询 和 
文档 思维 向 量 
计算 排序 





搜索 引擎 
搜索 查询 


”分词 器 


过 小 如 1 


结果 1] 
过 小 可 2 Er 0.2 | 0.1|0.6| 0.2 
"Ew E99 一 口 
过 小 帮 3 0.3|04|01|0.9 





图 9-14 ”搜索 时 神经 网 络 和 搜索 引 敬 交互 


9.1 市 讨论 了 结果 的 准确 率 ， 同 时 突出 了 训练 时 间 。 些 外， 你 还 需要 跟 躁 网 络 从 输入 层 到 输 
出 层 的 全 反馈 计算 所 花费 的 时 间 。 

在 编码 天 -解码 硕 网 络 中 ， 网 络 编码 侧 的 前 竺 传递 只 需要 提取 思维 回 量 。 只 有 当 你 想 用 一 个 
目标 输出 〈 如 果 你 有 ) 对 输入 文本 进行 训练 时 ， 才 需要 使 用 网 络 的 解码 需 端 。 

索引 时 的 开销 也 必须 考虑 在 内 。 假 设 你 在 一 个 “静态 ”的 场景 中 处 理 一 组 文档 ,那么 即使 它 
很 大 也 可 能 没 问题 ， 因 为 如 果 只 发 生 一 次 ,你 可 以 接受 1~2 小 时 的 总 开销 。 但 重新 索引 或 大 容量 
并 发 索引 可 能 有 问题 。 重 新 索引 意味 着 从 搜索 引 苟 中 从 涉 开始 索引 整个 文档 语料库 。 这 通常 通过 
改变 文本 分 析 管道 配置 或 添加 文档 处 理 硕 以 提取 更 多 元 数据 完成 。 

以 一 个 简单 的 基于 Lucene 的 搜索 引擎 为 例 。 它 没有 查询 扩展 功能 ， 为 了 使 用 word2vec 模型 
在 索引 时 扩展 同义词 ， 需 要 获取 所 有 现 有 文档 并 重新 索引 它们 ， 以 让 作为 结 采 的 倒 排 索 引 也 包含 
由 word2vec 提取 的 单词 (同义词 )。 索 引 越 大 ， 重 新 索引 的 影响 就 越 大 。 

并 发 性 是 另 一 个 方面 : 神经 网 络 能 处 理 并 发 输入 吗 ? 这 是 一 个 实现 细节 , 可 能 取决 于 用 来 实 
现 模型 的 具体 技术 , 但 是 它 必 须 兼 顾 索 引 时 间 〈 多 个 并 行 索引 过 程 ) 和 搜索 时 间 (多 个 用 户 同时 
搜索 )。 
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能 入 和 稠密 回 量 通 篆 可 以 有 多 个 维度 。 如 何 有 效 地 存储 它们 是 一 个 尚未 解决 的 问题 。 在 现实 
世界 中 ， 选 项 可 能 会 受到 所 用 搜索 引 敬 技术 能 力 的 限制 。 例 如 ， 在 Lucene 中 ， 向 密 回 量 可 以 用 
以 下 任意 一 种 方式 被 索引 。 

口 二 进 制 文件 ( binary ) 每 一 个 癌 量 都 像 非 限定 的 二 进 制 文件 一 样 被 存储 ， 所 有 的 艇 入 

处 理 都 是 在 提取 二 进 制 文件 时 完成 的 。 

口 n 维 点 (n-dimensional point ) 一 一 每 个 向量 都 被 存储 为 一 个 具有 多 个 维度 的 点 〈 每 个 癌 量 
维度 一 个 )。 可 以 执行 基本 的 几何 查询 和 最 近邻 查询 。 目 前 ，Lucene 最 多 可 以 索引 8 维 问 
量 ， 因 此 必须 将 高 维 回 量 (例如 100 维 词 回 量 ) 减少 到 最 多 8 维 癌 量 ， 才 能 在 Lucene 中 
索引 它们 ( 就 像 第 8 章 PCA 对 图 像 特征 向 量 所 做 的 那样 )。 

口 文本 (text ) 一 一 一 开始 可 能 听 起 来 很 奇怪 ,但 如 果 设 计 得 当 ， 人 们 可 以 索引 癌 量 ， 并 像 

文本 单元 一 样 搜 索 向 量 "。 

其 他 的 库 ( 如 Vespa ) 和 搜索 平台 (如 Apache Solr 和 Elasticsearch ) 可 能 提供 更 多 的 或 不 同 
的 选项 。 


9.3 ”使 用 数据 流 


本 书 中 所 有 的 例子 都 使 用 静态 数据 集 。 静 态 数据 集 用 于 阐释 说 明 时 很 好 , 因为 它们 更 容易 聚 
焦 在 特定 的 数据 集 上 。 此 外 , 搜索 引擎 的 构建 通常 会 从 你 要 索引 的 一 组 文档 | 文本 和 (或 ) 图 像 ] 
开始 ， 但 是 随 春 一 个 搜索 引擎 投入 生产 并 开始 使 用 ， 它 可 能 需要 接收 新 文档 。 

假设 有 一 个 应 用 程序 ， 它 允许 用 户 从 社交 网 络 中 搜索 各 种 主题 的 热门 帖 文 。 你 可 以 从 一 组 
已 经 下 载 或 购买 了 的 帖 文 开始 ， 但 是 由 于 关注 的 焦点 是 热门 帖 文 ， 而 流行 趋势 会 随时 间 改 变 ， 
所 以 你 需要 不 断 地 获取 数据 。 不 仅 是 社交 网 络 帖 文 ， 新 闻 也 需要 类 似 的 应 用 。 你 可 以 下 载 一 个 
新 闻 语 料 库 ， 比 如 NYT 和 带 注释 的 语料库 , 但 是 每 天 ， 应 用 必须 抓 取 许 多 新 的 文 草 ,使 用 户 可 以 
搜索 它们 。 

现在 , 使 用 流 式 架构 ( streaming architecture ) 来 处 理 数据 输入 流 是 很 津 见 的 。 在 流 式 架 构 中 ， 
数据 从 一 个 或 多 个 源 连 续 地 流入 ,并 由 管道 中 的 堆 著 函数 进行 转换 ,数据 可 以 在 任何 时 候 被 转换 、 
凤 合 或 丢弃 ， 最 后 到 达 一 个 汇集 点 ( sink )， 即 管道 的 最 后 阶段 ， 例 如 数据 库 或 搜索 引擎 索引 等 持 
久 性 系统 。 

在 前 面 的 示例 中 , 流 式 架 构 可 以 连续 地 从 社交 网 络 中 抓 取 帖 文 并 将 其 索引 到 搜索 引 敬 中。 男 
一 个 使 用 索引 数据 的 应 用 可 以 谈 取 索引 并 辐 最 终 用 户 公 开 搜索 特征 。 但 是 你 在 用 神经 网 络 工 作 ， 
所 以 你 需要 训练 想 使 用 的 神经 网 络 模型 。 

在 一 个 示例 场景 中 ,请 构建 一 个 应 用 程序 ,以 持续 为 一 组 预定 义 主 题 中 的 每 一 个 主题 找到 最 
相关 的 帖 文 ( 见 图 9-15 )。 要 做 到 这 一 点 ， 就 要 使 用 流 式 架构 来 不 断 地 执行 以 下 操作 。 

口 从 社交 网 络 ( 本 例 中 是 Twitter ) 抓 取 推 文 。 






























































中 参见 Jan Rygl 等 人 的 文章 “Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines”。 
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口 训练 不 同 的 神经 网 络 模型 来 提取 文档 能 入 。 
口 在 Lucene 中 索引 文本 和 级 入 。 








口 针对 每 个 排序 模型 和 每 个 主题 ， 输 出 最 相关 的 推 文 。 















更 新 所 有 
神经 网 络 
模型 








使 用 各 入 
索引 推 文 






使 用 所 有 可 用 的 
排序 模型 搜索 一 


SE a 
搜索 


图 9-15 “用 于 社交 媒体 帖 文 的 连续 训练 、 索 引 和 搜索 的 流 应 用 程序 


最 后 ， 你 会 快速 评价 不 同 的 排序 模型 ( 可 能 是 神经 网 络 的 ， 也 可 能 不 是 ) 中 哪 一 个 是 比较 
有 前 途 的 。 例 如 ， 可 以 在 试 生 产 阶 段 使 用 这 样 的 应 用 程序 来 帮助 选择 最 适合 生产 应 用 程序 的 排 
序 模型 。 

为 了 建立 流 式 架 构 , 需 要 使 用 Apache FLink, 一 个 用 于 数据 流 的 计算 框架 和 分 布 式 处 理 引 擎 。 
FLink 流 管道 将 执行 以 下 操作 。 

口 包含 特定 关键 字 的 推 文 从 Twitter 社交 网 络 流 入 。 

口 提取 每 条 推 文 的 文本 、 语 言 、 用 户 等 。 

口 使 用 两 个 独立 的 模型 提取 文档 舱 入 ， 即 段 问 量 和 word2vec 平均 词 般 入 。 

口 在 Lucene 中 为 每 条 推 文 的 文本 、 语 言 、 用 户 和 文档 藤 入 编制 索引 。 

口 使 用 不 同 的 排序 模型 ( 经 典 的 和 神经 的 ) 在 所 有 索引 数据 上 运行 预 设 的 查询 。 

口 将 输出 写 入 CSV (逗号 分 隔 值 ) 文件 中 ， 方便 在 稍 后 阶段 分 析 、 评 价 搜索 结 采 的 质量 。 
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输出 文件 将 展示 针对 特定 主题 的 一 组 固定 查询 的 结果 数据 变化 , 以 及 不 同 的 排序 模型 是 如 何 
啊 应 的 。 这 将 展示 排序 模型 是 如 何 适 应 新 推 文 的 , 该 信息 非常 有 价值 。 如 果 一 个 排序 模型 不 管 数 








据 如 何 变化 ,总 是 给 出 同样 的 结果 , 那么 它 可 能 不 是 最 好 的 选择 ， 因 为 这 个 应 用 程序 旨 在 捕捉 趋 
荔 数 据 。 


首先 ， 定 义 一 个 来 自 Twitter 的 数据 流 ， 如 代码 清单 9-5 所 示 。 
代码 清单 9-5 ”使 用 Flink 定义 一 个 Twitter 数据 流 


定义 Flink 
执行 环境 


加 载 接 入 Twitter 


E 的 安全 证 书 
final StreamExecutionEnvironment emnv = 


StreamExecutionEnvironment .getExecutionEnvironment (); 





Properties props = new Properties(); 
props.load(StreamingTweetIingestAndLearnApp.class.getResourceAsStreaml 


"/twitter.properties")); OO 





TwitterSource twitterSource = new TwitterSource (props); 


为 Twitter 数据 创建 
新 的 Flink 源 
"natural language processing", 
"Wword embeddings", "manning"},; 


twitterSource.setCustomEndpointIinitializer (new FilterEndpoint (tags)); 


String[] tags = {"neural search", 


"lucene", 
> "deep learning", 


DataStream<Tweet> twitterStream = env.addSource (twitterSource) 
.flatMap (new TweetJsonConverter()); i 
ia 在 Twitter 数据 上 
对 Twitter 源 的 每 个 0 
主题 增加 过 滤器 流 


定义 主题 ， 用 于 从 Twitter 抓 取 





从 将 推 文 原始 文本 转 
推 文 ( 仅 包 含 这 些 关 键 词 的 推 文 换 为 JSON 格式 开始 
会 被 提取 ) 


这 个 清单 执行 所 需 的 配置 ， 以 开始 接收 包含 如 下 关键 字 ( 主题 ) 的 推 文 :“ 神 经 搜索 “自然 
语言 处 理 ”“Lucene" “这 度 学 习 ”“ 词 般 人 ”和 “manning ”。 

接 下 来 将 定义 一 系列 函数 来 处 理 推 文 。 我们 还 将 关注 性 能 方面 的 实现 细 市 。 例 如 ,在 每 次 收 
到 新 推广 时 运行 预 设 查询 是 否 有 意义 ? 也许 在 有 更 多 可 以 影响 评分 的 数据 ( 比如 20 条 推 文 ) 时， 
这 样 做 才 更 好 。 因 此 ， 可 以 定义 一 个 计数 窗口 函数 ， 该 函数 仅 在 它 收 到 20 条 推 文 时 才 将 数据 传 
递 给 下 一 个 函数 。 此 外 , 仅 用 一 个 样本 更 新 神经 网 络 模型 通 第 不 是 一 个 好 主意 ， 因 为 使 用 较 大 的 
训练 批量 不 易 让 训练 误差 产生 波动 (使 学 习 曲 线 更 加 平 消 )， 如 代码 清单 9-6 所 示 。 
代码 清单 9-6 ”操作 流 数据 

Path outputPath = new Path("/path/to/data.csv"); 
OutputFormat<Tuple2<String, String>> format = new 


CsvOutputFormat<> (outputPpath); < 一 输出 CSV 文件 




















DataStreamSink<Tuple2<String, 


String>> tweetSearchStream = Br 
twitterStream 一 个 计数 窗口 
.CouNntWindowAll (batchSize) 
.apply (new ModelAndIindexUpdateFunction()) 
更 新 模型 ， 提 取 特 
征 ， 更 新 索引 
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.map (new ResultTransformer()) .countWindowAll(1) 


.apply (new TupleEvictorFunction()) Ni 
天 
.writeUsingOutputFormat (format).; Re 
emv.eXecute ( ) ; 


ModelAndIndexUpdateFunction 负责 更 新 神经 网 络 模型 并 对 Lucene 中 的 文档 进行 索引 o 
理论 上 ,你 可 以 把 它 拆 分 成 许多 小 函数 , 但 是 为 了 保证 可 读 性 ， 可 以 把 摄取 和 搜索 过 程 拆 分 成 两 
个 函数 。 你 可 以 根据 目 喘 需要 使 用 很 多 的 神经 排序 模型 ， 本 例 使 用 了 word2vec 和 上 段 向 量 (它们 
的 定义 分 别 在 第 5 章 和 第 6 章 ) 来 改变 排序 。 

在 接收 每 条 推 文 之 后 ， 上 段 问 量 和 word2vec 模型 都 生成 两 个 独立 的 艇 入。 癌 量 会 与 Twitter 文 
本 一 起 受到 索引 ， 并 在 检索 时 被 Paragrarthvectorseinilarity TI Wordmmbeadinds. 
similarity 类 使 用 ， 如 代码 清单 9-7 所 示 。 


代码 清单 9-7 ”更 新 模型 和 索引 的 函数 
public class ModelAndIindexUpdateFunction implements AllWindowFunction<Tweet, 
Long, GlobalWindow> { 


.map (new MultiRetrieverFunction()) 
查询 




















QOverride 

public void apply (GlobalWindow globalWindow, Iterable<Tweet> iterable, 
Collector<Long> collector) throws Exception f{ 
ParagraphVectors paragraphVectors = Utils.fetchVectors ( ) ; 


CustomWriter writer = new CustomWriter().; 
for (Tweet tweet : iterable) { 在 当前 批量 推 文 
Document document = new Document (); 上 和 迭代 


document .add (new TextField("text", tweet .detText ( ) ， 
Field.Store.YES));} 





为 当前 推 文 文本 创建 





INDArray paragraphVector = 一 个 Lucene 文档 
paragraphVectors.inferVector (tweet .getText () ) ; 
document .add (new BinaryDocValuesField!\( 
"PVv", new BytesRef (paragraphVector.data() .asBytes()))).; 推断 出 段 向 量 ， 
并 更 新 模型 
索引 段 
向 量 INDArray averageWordVectors = 
averageWordVectors (word2Vec.getTokenizerFactory ( ) 
.Create (tweet .getText ()) .getTokens(), word2Vec.lookupTable(),); 





document .add (new BinaryDocValuesField!l 
> "wv", new BytesRef (averageWordVectors.data() .asBytes()))); 





FE Ny A 
索引 平均 从 word2vec 推断 





词 向 量 MEA EE 
z 0 出 文档 向 量 ， 并 更 

writer.addDocument (document);} < 一 索引 文档 立 F4 划 天 | 

, 新 模型 

long commit = writer.commit(); 将 全 部 推 文 提交 
给 Lucene 

writer.close(); 

collector.collect (commit); 关闭 Indexwriter 

} We (释放 资源 ) 
, 将 提交 标记 传递 给 下 一 个 


函数 (这 能 用 于 追踪 索引 随 
时 间 变 化 情况 ) 
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MultiRetrieverFunction 包含 一 些 基本 的 Lucene 搜索 代码 , 可 以 在 全 部 索引 上 用 不 同 的 
排序 也 数 运行 固定 的 查询 ( 例如 “深度 学 习 搜 索 ”)。 首 先 ， 它 设置 IndexSearcher， 每 个 
Irnidexoearceher 使 用 不 同 的 Lucene Similarity, 如 代码 清单 9-8 所 示 。 








代码 清单 9-8 设置 IndexSearcher 







不 同 Similarity 的 IndexSearcher 为 ClassicSimilarity (TF-IDF) 
放 在 这 个 映射 中 创建 一 个 IndexSearcher 在 IndexSearcher 上 设置 


ClassicSimilarity 
Map<String, IndexSearcher> searchers = new HashMap<>();} 


IndexSearcher classic = new JIndexSearcher(...),; 将 IndexSearcher 
Solasele eetolnrlarity (newr Claseleoni larity (ys 放 在 映射 中 
searchers.put ("classic", classic); 


IndexSearcher bm25 = new IndexSearcher(...); 


为 BM25Similarit 
searchers.put ("bm25", bm25); 为 lmilarity 


(Lucene 默认 值 ) 创建 


一 人 
IndexSearcher pv = new IndexSearcher(...); | IndexSearcher 


pv.setSimilarity (new ParagraphVectorsSimilarityl 
paragraphVectors, fieldName)); 为 ParagraphVectorsSimilarity 
searchers.put ("document embedding ranking", pvV);} 创建 一 个 Inaexsearcher 


IndexSearcher lmd = new IndexSearcher(...); 
lmd.setSimilarity (new LMDirichletSimilarity ()); 
searchers.put ("language model dirichlet", lmd); 





为 LMDirichletsimilarity 创建 
一 个 IndexSearcher 


IndexSearcher wv = new IndexSearcher(...); 
pv.setSimilarity (new WordEmbeddingsSimilarityl 

word2Vec, fieldName, WordEmbeddingsSimilarity.Smoothing.TF_ IDF)); 
searchers.put ("average word embedding ranking", wv); 


为 WordEmbeddingsSimilarity 
创建 一 个 IndaexSearcher 


你 可 以 尽 可 能 多 地 添加 排序 模型 。 接 下 来 ， 对 可 用 的 IndexSearcher 进行 迭代 ， 并 对 每 个 
IndexSearcher 执行 相同 的 查询 。 最 后 ， 将 结果 写 人 CSV 文件 。 

在 执行 MultiretrieverFunction 期 间 汇 总 在 CSV 文件 中 的 输出 包含 每 个 排序 模型 的 一 
行 。 每 一 行 首先 包含 模型 的 名 称 ( classic、 BM25、average wv ranking、 paragraph vectors 
ranking 等 )， 然 后 是 去 号 和 该 排序 模型 返回 的 第 一 个 搜索 结果 的 文本 。 久 而 久之 ， 你 将 得 到 一 
个 巨大 的 CSV 文件 ， 它 包含 在 所 有 不 同 排序 模型 上 的 相同 查询 的 输出 。 

请 看 两 个 连续 执行 的 结果 ( 为 了 更 好 的 可 读 性 , 手动 标记 为 <iteration-1> 和 <iteration-2> )。 





























. .<iteration-1> 


classic,Amazing what neural networks can do. 
// Computational Protein Design with Deep Learning Neural Networks 
language model dirichlet,Amazing what neural networks can do. 

// Computational Protein Design with Deep Learning Neural Networks 
bm25,Amazing what neural networks can do. 


// Computational Protein Design with Deep Learning Neural Networks 























average wv ranking,Amazing what neural networks can do. 

// Computational Protein Design with Deep Learning Neural Networks 
paragraph vectors ranking,Amazing what neural networks can do. 

// Computational Protein Design with Deep Learning Neural Networks 


. .<iteration-2> 


classic,Amazing what neural networks can do. 

// Computational Protein Design with Deep Learning Neural Networks 
language model dirichlet,Amazing what neural networks can do. 

// Computational Protein Design with Deep Learning Neural Networks 
bm25,Amazing what neural networks can do. 
// Computational Protein Design with Deep Learning Neural Networks 
average wv ranking,The Connection Between Text Mining and Deep Learning 




















paragraph vectors ranking,All-optical machine learning using diffractive 
deep neural networks: 


注意 , 非 神 经 排序 模型 并 没有 改变 排序 徘 前 的 搜索 结果 ,而 那些 依赖 于 舱 入 的 模型 则 立即 适 
应 了 新 的 数据 , 这 种 能 力 让 神经 排序 模型 能 够 发 挥 作用 。 流 式 染 构 可 以 处 理 要 索引 到 搜索 引擎 中 
的 高 负载 数据 ， 评 价 最 佳 模 型 ， 并 仔细 安排 神经 网 络 和 搜索 引擎 如 何 最 好 地 协同 工作 。 





9.4 SS 


口 训练 次 度 学 习 模 型 并 不 总 是 简单 明了 的 , 在 真实 场景 中 经 党 需要 对 该 过 程 进 行 调整 和 修改 。 

口 搜索 引擎 和 神经 网 络 通常 是 两 个 不 同 的 系统 ， 它 们 在 索引 时 和 搜索 时 相互 作用 。 为 了 在 
啊 应 时 间 方 面 保 持 民 好 的 整体 用 户 体验 ， 监 控 它 们 的 性 能 很 有 必要 。 

口 和 常见 的 流 式 场景 一 样 ， 真 实 世 界 中 的 部 闭 必 须 考 虑 负载 和 并 发 性 ， 评 价 质量 ， 以 实现 
最 佳 的 搜索 解决 方案 。 




















展望 未 来 





本 书 在 开始 时 提出 了 一 个 疑问 , 即 是 否 有 可 能 使 用 次 度 神 经 网 络 作为 智能 助手 , 为 人 们 提供 
更 好 的 搜索 工具 。 在 本 书 的 全 部 内 容 中 , 我 们 接触 了 篆 见 的 搜索 引擎 的 几 个 方面 ,深度 学 习 在 其 
中 有 很 大 的 潜力 ， 可 以 帮助 用 户 找 到 他 们 想 要 的 东西 。 

随 大 本 书 研 究 的 主题 和 算法 越 来 越 复 杂 , 我 希望 你 对 这 个 话题 越 来 越 感 兴趣 。 本 书 提 供 了 一 
些 工 具 和 实用 建议 , 你 可 以 立即 使 用 它们 。 我 也 希望 本 书 能 激励 你 去 了 解 哪 些 方面 仍然 有 提升 的 
空间 ， 以 及 哪些 问题 仍然 没有 解决 ， 并 这 入 馈 研 它们 。 在 本 书 的 写作 过 程 中 , 我 在 这 度 学 习 领 域 
发 表 了 一 些 新 论文 ， 其 中 包括 一 些 与 搜索 相关 的 论文 。 新 的 激活 函数 被 证 明 是 有 用 的 , 新 的 模型 
被 提出 并 取得 了 令 人 满意 的 结果 。 我 建议 你 不 要 止步 于 此 , 而 要 继续 思考 你 和 你 的 用 户 震 要 什么 ， 
以 及 如 何 创 造 性 地 达到 目的 。 

本 书 仅 仅 触 及 了 将 深度 学 习 应 用 于 信息 检索 的 皮毛 。 但 是 现在 你 已 经 7 了解 了 神经 搜索 的 基础 
知识 ,做 好 了 深入 地 目 主 学 习 并 完成 难度 更 高 的 任务 的 准备 。 视 你 从 中 获得 更 多 乐趣 ! 
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Python 深度 学 习 
令 30 多 个 代码 示例 ， 带 你 全 面 掌 握 如 何 用 深度 学 习 解 决 实际 问题 
令 Keras 框 架 速 成 的 明智 之 选 

令 夯实 深度 学 习 基 础 ， 在 实践 中 培养 对 深度 神经 网 络 的 良好 直觉 
令 无 须 机 器 学 习 经 验 和 高 等 数学 背景 
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目 然 语言 处 理 入 门 


图 文 并 茂 ， 算 法 、 公 式 、 代 码 相 互 印 证 ，Java 与 Python 双 实 现 

学 习 路 径 清 晰 ， 简 单 易 懂 好 上 手 ， 双 色 印 刷 阅读 体验 住 

业内 专家 一 一 工业 界 周明 、 李 航 、 刘 群 、 王 斌 、 杨 攀 ， 学 术 界 宗 成 庆 、 刘 
知 远 、 张 华 平 联合 推荐 

随 书 附 赠 大 尺寸 思维 导 图 ， 提 供 源码 下 载 、GitHub 答 疑 ， 为 教师 提供 教 
学 讲义 PPT 
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令 斯 坦 福 大 学 经 典 教材 

令 信息 检索 领域 顶级 科学 家 打 办 之 作 

4 将 构建 Web 搜 索引 擎 的 复杂 过 程 以 一 种 清晰 的 全 景 方式 展现 出 来 
令 重点 展示 搜索 引擎 核心 技术 以 及 机 器 学 习 和 数值 计算 方法 
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令 人 工 智能 领域 先驱 、IEEE 会 士 巴 蒂 蒂 教 授 领 导 的 LION 实 验 室 多 年 机 器 
学 习 经 验 总 结 
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图 灵 读 者 官方 群 I: 218139230 
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图 灵 社 区 
iTuring.cn 
在 线 出 版 , 电子 书 ,《 码 农 》 杂 志 , 图 灵 访 谈 


本 书 教 你 用 深度 学 习 和 神经 网 络 打造 更 智能 的 
搜索 引擎 ， 通 过 简单 易 懂 的 示例 解释 搜索 和 深度 学 
习 技 术 ， 大 部 分 示例 配 有 Java 代 码 。 书 中 介绍 了 
搜索 引擎 面临 的 主要 挑战 及 其 常见 解决 方法 ， 以 及 
深度 学 习 所 能 提供 的 帮助 。 此 外 还 阐释 了 几 种 深 
度 学 习 技术 及 其 在 搜索 环境 中 的 适用 范围 ， 以 及 
Lucene 和 Deeplearning4j 库 的 用 法 。 最 后 讨论 了 
更 为 复杂 的 应 用 场景 ， 例 如 由 深度 学 习 驱 动 的 机 器 
翻译 和 图 像 搜 索 。 


本 书 读者 应 具备 一 定 的 Java 编程 基础 ， 但 不 
需要 具备 深度 学 习 和 搜索 引擎 开发 背景 。 


@ 第 一 部 分 : 搜索 、 机 器 学 习 和 深度 学 习 的 基 
本 概念 ; 使 用 神经 网 络 模型 从 数据 中 生成 同义词 。 


@ 第 二 部 分 : 使 用 循环 神经 网 络 来 生成 用 户 输 
入 查询 的 蔡 代 查询 ; 借助 深度 神经 网 络 的 帮助 ， 在 
用 尸 输入 查询 时 提供 更 好 的 建议 ; 使 用 词 谋 入 提供 
相关 性 更 强 的 搜索 结果 ; 文档 戏 入 在 排序 函数 和 内 
容 推 荐 中 的 使 用 。 


@ 第 三 部 分 : 由 深度 学 习 驱 动 的 机 器 翻译 和 
图 像 搜索 ; 深度 学 习 模 型 调 优 和 处 理 连续 传 入 的 
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图 灵 社 区 : iTuring.cn 
分 类 建议 : 计算 机 / 深度 学 习 
人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 


“本 书 作者 采用 了 一 种 实用 的 方法 ， 展 示 
了 如 何在 搜索 引擎 开发 中 使 用 神经 网 络 、 人 
工 智能 和 深度 学 习 的 新 技术 。” 


-一 一 Chris Mattmann 
推进 实验 室 副 首席 技术 与 创新 官 


“这 本 书 融 合 了 传统 搜索 技术 和 先进 的 深 
度 学 习 技术 ， 内 容 全 面 、 讲 解 透彻 。” 


一 一 Greg Zanotti 
Marquette Partners 软件 开发 工程 师 


“这 本 书 的 写作 条 理 清 晰 ， 如 果 掌 握 了 其 
中 介绍 的 深度 学 习 前 沿 技术 ， 你 的 搜索 引擎 
性 能 将 上 升 一 个 台 阶 。 》》 


一 一 Andrew Wyllie 
GearJot 公司 CTO 


“ 书 中 示例 易于 上 手 ， 你 很 快 就 能 掌握 其 
中 的 深度 学 习 技术 ， 并 开发 出 基于 搜索 的 产品 。” 


一 一 Antonio Magnaghi 
System1 公司 CTO 
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